《永不浪费一个Token:AI推理流的可恢复性设计》
标签:#后端 #AI推理 #Cloudflare #DurableObject #流式恢复 #Token计费优化
总结:
本文探讨了AI Agent在推理过程中因进程崩溃或重新部署导致流式连接中断、已付费Token被重复计费的痛点。核心方案是在Agent与LLM提供商之间引入一个持久化缓冲区(Durable Object),将流式数据实时写入SQLite,使连接与Agent进程解耦。Agent重启后可通过游标恢复,避免重复调用和重复付费。该机制同时解决了浏览器断网重连和进程崩溃恢复两种场景,且即将集成到Cloudflare AI Gateway中,实现一键开启的持久化推理。
文章要点:
1. 隐藏的成本黑洞:Agent进程崩溃或重新部署时,正在进行的LLM流式请求会中断,已付费的生成Token全部丢失,恢复后必须重新调用并重新付费,且旗舰模型(如GPT-5.5)的重复成本是小模型的15倍。
2. 解耦连接与进程:将LLM提供商连接移出Agent进程,部署为独立的持久化缓冲区(Durable Object),在后台持续将流式数据写入SQLite。即使Agent进程被替换,缓冲区仍继续接收数据,Token不再浪费。
3. 一份日志,两种用途:持久化缓冲区存储的原始字节流既支持浏览器断网重连(追赶实时游标),也支持进程崩溃恢复(回放已存储的片段)。两者共用同一套SQLite日志机制,仅需判断生产者是否仍在运行。
4. 零自定义解析:存储原始字节而非解析后的SSE事件,恢复时通过各提供商的官方插件(如OpenAI、Anthropic)重新解析,避免维护多套格式解析器,且能自动适配格式变更。
5. 行业现状对比:OpenAI Responses API已原生支持后台模式恢复;Anthropic和Google Gemini均不支持服务端续流,只能重新提示并重复计费;Vercel的
6. 即将落地AI Gateway:Cloudflare AI Gateway正在集成该持久化恢复能力,未来只需在Agent基类中设置
URL:https://sunilpai.dev/posts/never-waste-a-token/
标签:#后端 #AI推理 #Cloudflare #DurableObject #流式恢复 #Token计费优化
总结:
本文探讨了AI Agent在推理过程中因进程崩溃或重新部署导致流式连接中断、已付费Token被重复计费的痛点。核心方案是在Agent与LLM提供商之间引入一个持久化缓冲区(Durable Object),将流式数据实时写入SQLite,使连接与Agent进程解耦。Agent重启后可通过游标恢复,避免重复调用和重复付费。该机制同时解决了浏览器断网重连和进程崩溃恢复两种场景,且即将集成到Cloudflare AI Gateway中,实现一键开启的持久化推理。
文章要点:
1. 隐藏的成本黑洞:Agent进程崩溃或重新部署时,正在进行的LLM流式请求会中断,已付费的生成Token全部丢失,恢复后必须重新调用并重新付费,且旗舰模型(如GPT-5.5)的重复成本是小模型的15倍。
2. 解耦连接与进程:将LLM提供商连接移出Agent进程,部署为独立的持久化缓冲区(Durable Object),在后台持续将流式数据写入SQLite。即使Agent进程被替换,缓冲区仍继续接收数据,Token不再浪费。
3. 一份日志,两种用途:持久化缓冲区存储的原始字节流既支持浏览器断网重连(追赶实时游标),也支持进程崩溃恢复(回放已存储的片段)。两者共用同一套SQLite日志机制,仅需判断生产者是否仍在运行。
4. 零自定义解析:存储原始字节而非解析后的SSE事件,恢复时通过各提供商的官方插件(如OpenAI、Anthropic)重新解析,避免维护多套格式解析器,且能自动适配格式变更。
5. 行业现状对比:OpenAI Responses API已原生支持后台模式恢复;Anthropic和Google Gemini均不支持服务端续流,只能重新提示并重复计费;Vercel的
resumable-stream为应用层方案,无法承受部署替换。6. 即将落地AI Gateway:Cloudflare AI Gateway正在集成该持久化恢复能力,未来只需在Agent基类中设置
durableBuffer = true即可一键开启,实现跨提供商的Token零浪费。URL:https://sunilpai.dev/posts/never-waste-a-token/