锤子前端 - Now vibe coding, so learning hammer FE ?

Now vibe coding, so learning hammer FE ?

09:11 · 2026年6月17日 · 周三

《永不浪费一个Token：AI推理流的可恢复性设计》

标签：#后端 #AI推理 #Cloudflare #DurableObject #流式恢复 #Token计费优化

总结：
本文探讨了AI Agent在推理过程中因进程崩溃或重新部署导致流式连接中断、已付费Token被重复计费的痛点。核心方案是在Agent与LLM提供商之间引入一个持久化缓冲区（Durable Object），将流式数据实时写入SQLite，使连接与Agent进程解耦。Agent重启后可通过游标恢复，避免重复调用和重复付费。该机制同时解决了浏览器断网重连和进程崩溃恢复两种场景，且即将集成到Cloudflare AI Gateway中，实现一键开启的持久化推理。

文章要点：
1. 隐藏的成本黑洞：Agent进程崩溃或重新部署时，正在进行的LLM流式请求会中断，已付费的生成Token全部丢失，恢复后必须重新调用并重新付费，且旗舰模型（如GPT-5.5）的重复成本是小模型的15倍。
2. 解耦连接与进程：将LLM提供商连接移出Agent进程，部署为独立的持久化缓冲区（Durable Object），在后台持续将流式数据写入SQLite。即使Agent进程被替换，缓冲区仍继续接收数据，Token不再浪费。
3. 一份日志，两种用途：持久化缓冲区存储的原始字节流既支持浏览器断网重连（追赶实时游标），也支持进程崩溃恢复（回放已存储的片段）。两者共用同一套SQLite日志机制，仅需判断生产者是否仍在运行。
4. 零自定义解析：存储原始字节而非解析后的SSE事件，恢复时通过各提供商的官方插件（如OpenAI、Anthropic）重新解析，避免维护多套格式解析器，且能自动适配格式变更。
5. 行业现状对比：OpenAI Responses API已原生支持后台模式恢复；Anthropic和Google Gemini均不支持服务端续流，只能重新提示并重复计费；Vercel的resumable-stream为应用层方案，无法承受部署替换。
6. 即将落地AI Gateway：Cloudflare AI Gateway正在集成该持久化恢复能力，未来只需在Agent基类中设置durableBuffer = true即可一键开启，实现跨提供商的Token零浪费。

URL：https://sunilpai.dev/posts/never-waste-a-token/

Solving the decision problem

never waste a token

durable inference: resumable streams, crash recovery, and why the LLM request shouldn't die with your process.

后端 AI推理 Cloudflare DurableObject 流式恢复 Token计费优化

16:21 · 2026年4月29日 · 周三

《大规模AI代码审查编排实践》

标签：#DevOps #AI辅助编程 #CodeReview #CI_CD #LLM #多智能体系统 #Cloudflare #OpenCode #插件架构

总结：
Cloudflare为解决代码审查瓶颈，放弃单一LLM直接审diff的噪音方案，转而基于开源代理OpenCode构建CI原生编排系统。该系统采用可组合插件架构，通过风险分级（Trivial/Lite/Full）动态调度最多7个专业审查智能体（安全、性能、质量等），由协调者代理去重、过滤并做出审批决策。系统已在数万MR上运行，能精准拦截真实漏洞，同时保留"break glass"人工逃生通道。

文章要点：
- **从噪音到精准**：早期直接把git diff塞给LLM的方案产生了大量幻觉和模糊建议，团队很快意识到需要专业化分工而非单一通用提示词
- **插件化架构**：系统基于OpenCode构建，采用完全解耦的插件体系（GitLab、AI网关、合规检查、遥测等各自独立），通过`ConfigureContext` API贡献配置，最终组装成`opencode.json`
- **多智能体协作**：最多同时启动7个专业审查者各司其职，协调者代理负责去重、重新分类、合理性验证，并按严格规则做出approve/approve_with_comments/unapprove/request_changes四级决策
- **风险分级省成本**：按代码行数和文件数将MR分为Trivial/Lite/Full三级，小改动只派2个轻量代理且降级模型，安全相关文件永远触发Full审查，避免用大模型审typo
- **工程细节满满**：使用JSONL流式处理避免内存爆炸；通过磁盘patch文件共享上下文节省7倍token；清理XML边界标签防止提示注入；30秒心跳日志消除"模型思考中"的误取消

文章URL：https://blog.cloudflare.com/ai-code-review

The Cloudflare Blog

Orchestrating AI Code Review at scale

Learn about how we built a CI-native AI code reviewer using OpenCode that helps our engineers ship better, safer code.

DevOps AI辅助编程 CodeReview CI_CD LLM 多智能体系统 Cloudflare OpenCode 插件架构