Now vibe coding, so learning hammer FE ?
《永不浪费一个Token:AI推理流的可恢复性设计》

标签:#后端 #AI推理 #Cloudflare #DurableObject #流式恢复 #Token计费优化

总结:
本文探讨了AI Agent在推理过程中因进程崩溃或重新部署导致流式连接中断、已付费Token被重复计费的痛点。核心方案是在Agent与LLM提供商之间引入一个持久化缓冲区(Durable Object),将流式数据实时写入SQLite,使连接与Agent进程解耦。Agent重启后可通过游标恢复,避免重复调用和重复付费。该机制同时解决了浏览器断网重连和进程崩溃恢复两种场景,且即将集成到Cloudflare AI Gateway中,实现一键开启的持久化推理。

文章要点:
1. 隐藏的成本黑洞:Agent进程崩溃或重新部署时,正在进行的LLM流式请求会中断,已付费的生成Token全部丢失,恢复后必须重新调用并重新付费,且旗舰模型(如GPT-5.5)的重复成本是小模型的15倍。
2. 解耦连接与进程:将LLM提供商连接移出Agent进程,部署为独立的持久化缓冲区(Durable Object),在后台持续将流式数据写入SQLite。即使Agent进程被替换,缓冲区仍继续接收数据,Token不再浪费。
3. 一份日志,两种用途:持久化缓冲区存储的原始字节流既支持浏览器断网重连(追赶实时游标),也支持进程崩溃恢复(回放已存储的片段)。两者共用同一套SQLite日志机制,仅需判断生产者是否仍在运行。
4. 零自定义解析:存储原始字节而非解析后的SSE事件,恢复时通过各提供商的官方插件(如OpenAI、Anthropic)重新解析,避免维护多套格式解析器,且能自动适配格式变更。
5. 行业现状对比:OpenAI Responses API已原生支持后台模式恢复;Anthropic和Google Gemini均不支持服务端续流,只能重新提示并重复计费;Vercel的resumable-stream为应用层方案,无法承受部署替换。
6. 即将落地AI Gateway:Cloudflare AI Gateway正在集成该持久化恢复能力,未来只需在Agent基类中设置durableBuffer = true即可一键开启,实现跨提供商的Token零浪费。

URL:https://sunilpai.dev/posts/never-waste-a-token/ never waste a token
《大规模AI代码审查编排实践》

标签:#DevOps #AI辅助编程 #CodeReview #CI_CD #LLM #多智能体系统 #Cloudflare #OpenCode #插件架构

总结:
Cloudflare为解决代码审查瓶颈,放弃单一LLM直接审diff的噪音方案,转而基于开源代理OpenCode构建CI原生编排系统。该系统采用可组合插件架构,通过风险分级(Trivial/Lite/Full)动态调度最多7个专业审查智能体(安全、性能、质量等),由协调者代理去重、过滤并做出审批决策。系统已在数万MR上运行,能精准拦截真实漏洞,同时保留"break glass"人工逃生通道。

文章要点:
- **从噪音到精准**:早期直接把git diff塞给LLM的方案产生了大量幻觉和模糊建议,团队很快意识到需要专业化分工而非单一通用提示词
- **插件化架构**:系统基于OpenCode构建,采用完全解耦的插件体系(GitLab、AI网关、合规检查、遥测等各自独立),通过`ConfigureContext` API贡献配置,最终组装成`opencode.json`
- **多智能体协作**:最多同时启动7个专业审查者各司其职,协调者代理负责去重、重新分类、合理性验证,并按严格规则做出approve/approve_with_comments/unapprove/request_changes四级决策
- **风险分级省成本**:按代码行数和文件数将MR分为Trivial/Lite/Full三级,小改动只派2个轻量代理且降级模型,安全相关文件永远触发Full审查,避免用大模型审typo
- **工程细节满满**:使用JSONL流式处理避免内存爆炸;通过磁盘patch文件共享上下文节省7倍token;清理XML边界标签防止提示注入;30秒心跳日志消除"模型思考中"的误取消

文章URL:https://blog.cloudflare.com/ai-code-review Orchestrating AI Code Review at scale
 
 
Back to Top