Now vibe coding, so learning hammer FE ?
《永不浪费一个Token:AI推理流的可恢复性设计》

标签:#后端 #AI推理 #Cloudflare #DurableObject #流式恢复 #Token计费优化

总结:
本文探讨了AI Agent在推理过程中因进程崩溃或重新部署导致流式连接中断、已付费Token被重复计费的痛点。核心方案是在Agent与LLM提供商之间引入一个持久化缓冲区(Durable Object),将流式数据实时写入SQLite,使连接与Agent进程解耦。Agent重启后可通过游标恢复,避免重复调用和重复付费。该机制同时解决了浏览器断网重连和进程崩溃恢复两种场景,且即将集成到Cloudflare AI Gateway中,实现一键开启的持久化推理。

文章要点:
1. 隐藏的成本黑洞:Agent进程崩溃或重新部署时,正在进行的LLM流式请求会中断,已付费的生成Token全部丢失,恢复后必须重新调用并重新付费,且旗舰模型(如GPT-5.5)的重复成本是小模型的15倍。
2. 解耦连接与进程:将LLM提供商连接移出Agent进程,部署为独立的持久化缓冲区(Durable Object),在后台持续将流式数据写入SQLite。即使Agent进程被替换,缓冲区仍继续接收数据,Token不再浪费。
3. 一份日志,两种用途:持久化缓冲区存储的原始字节流既支持浏览器断网重连(追赶实时游标),也支持进程崩溃恢复(回放已存储的片段)。两者共用同一套SQLite日志机制,仅需判断生产者是否仍在运行。
4. 零自定义解析:存储原始字节而非解析后的SSE事件,恢复时通过各提供商的官方插件(如OpenAI、Anthropic)重新解析,避免维护多套格式解析器,且能自动适配格式变更。
5. 行业现状对比:OpenAI Responses API已原生支持后台模式恢复;Anthropic和Google Gemini均不支持服务端续流,只能重新提示并重复计费;Vercel的resumable-stream为应用层方案,无法承受部署替换。
6. 即将落地AI Gateway:Cloudflare AI Gateway正在集成该持久化恢复能力,未来只需在Agent基类中设置durableBuffer = true即可一键开启,实现跨提供商的Token零浪费。

URL:https://sunilpai.dev/posts/never-waste-a-token/ never waste a token
《OpenWolf:Claude Code 的开源"第二大脑"》

标签:#AI辅助编程 #Claude_Code #Token优化 #开发工具

总结:OpenWolf 是一款为 Claude Code CLI 设计的开源中间件,通过 6 个无感知的生命周期钩子脚本,为 AI 助手提供项目文件索引、学习记忆和 Token 追踪能力。实测在 20 个项目、132+ 会话中平均减少 65.8% 的 Token 消耗,最高可达 80%,同时拦截 71% 的重复文件读取,让 Claude Code 从"盲目工作"变成"有记忆地智能工作"。

文章要点:
- 解决 Claude Code 的"盲目"痛点:Claude 在读取文件前不知道文件内容,会重复读取同一文件、扫描整个目录找函数,导致 Token 消耗过快
- 6 个钩子脚本实现无感知增强:基于 SessionStart、PreToolUse、PostToolUse、Stop 三个生命周期事件,自动执行文件索引、重复读取拦截、偏好记忆和 Token 估算,无需改变任何工作习惯
- 核心文件系统构建"第二大脑":anatomy.md 记录项目文件地图与 Token 估算,cerebrum.md 积累用户偏好与"不再重复"清单,buglog.json 归档历史 Bug 修复方案,token-ledger.json 追踪终身 Token 消耗
- 显著的 Token 节省效果:大型项目实测从 250 万 Token 降至 42.5 万(节省约 80%),20 个项目平均节省 65.8%,拦截 71% 的重复读取,累计节省超 200 万 Token
- 纯本地运行零额外成本:所有钩子均为纯 Node.js 文件 I/O,无网络请求、无外部 API 调用,仅依赖 Node.js 20+ 和 Claude Code CLI
- 额外实用功能:内置 Design QC 自动截图供 Claude 评估 UI,Reframe 功能提供 12 个 UI 框架的迁移知识库,支持实时 Web 仪表盘查看统计数据
- 诚实的局限性说明:Claude Code 钩子功能较新偶有可靠性问题,Token 追踪基于字符比例估算(误差约 15%),cerebrum.md 依赖 Claude 遵守指令更新(合规率 85-90%)

文章URL:https://github.com/cytostack/openwolf GitHub - cytostack/openwolf: Sharper context. Fewer tokens. Open-source middleware for Claude Code.
 
 
Back to Top