Now vibe coding, so learning hammer FE ?
《Agent Harness 的解剖学:将 LLM 转化为工作引擎的系统工程》

标签:#AI_Agent #LLM #LangChain #Harness_Engineering #Context_Management #Tool_Orchestration

总结:Agent Harness 是包裹在大模型之外的全套"脚手架"——包括系统提示词、工具调用、文件系统、沙盒环境、记忆管理和编排逻辑等。它把只能输入输出文本的"裸模型",改造成能持久化状态、执行代码、自主规划并长期协作的合格智能体。文章从模型能力边界出发,逆向推导出每个 Harness 组件存在的必然性,并指出 Harness 工程与模型训练正在协同进化,优化 Harness 本身就能让同一模型在基准测试上从 Top 30 跃升至 Top 5。

文章要点:
- Agent = Model + Harness:如果你不是模型本身,那你就是 Harness。Harness 是除模型权重外的一切代码、配置与执行逻辑,负责把模型的"智商"转化为"产能"
- 模型天生会"健忘":裸模型只能处理上下文窗口内的信息,无法跨会话记住状态、执行代码或获取实时知识,这些"超能力"全靠 Harness 赋予
- 文件系统是最底层的基础设施:给 Agent 一个工作目录,它就能读写数据、卸载超长上下文、还能让多个 Agent 像同事一样通过共享文件协作
- Bash + 代码执行是万能瑞士军刀:与其为每个场景预写工具,不如直接给 Agent 一个终端,让它现场写代码、装依赖、自己造工具解决问题
- 沙盒让 Agent 安全地"动手":在隔离环境里跑代码、测效果、看日志,既防手滑删库,又能按需扩容、用完即焚
- 记忆靠"上下文注入"实现:通过 AGENTS.md 等记忆文件标准,把历史经验塞进新会话;再配合网络搜索和 MCP 工具,突破训练数据的时间 cutoff
- 上下文腐烂是隐形杀手:随着对话变长,模型性能会断崖下跌。Harness 通过 Compaction(智能摘要)、Tool 输出卸载和 Skills 渐进式加载来保护宝贵的上下文空间
- 长程任务需要"接力跑":Ralph Loop 机制让 Agent 在上下文耗尽时,从文件系统读取进度、换一块"干净"上下文继续干;配合 git 记录和自验证循环,实现跨会话的复杂项目开发
- Harness 与模型在"共同进化":Claude Code、Codex 等产品会把 Harness 逻辑也放进后训练环节,但有趣的是——换一套更优 Harness,同一模型排名能从 30 名外冲进前 5
- 未来 Harness 会"瘦身"但不会消失:随着模型原生规划、验证能力变强,部分 Harness 功能会被模型吸收;但就像提示工程至今仍有价值,Harness 工程作为"围绕模型智能设计系统"的学科,仍将持续发光

文章URL:https://www.langchain.com/blog/the-anatomy-of-an-agent-harness
《大规模AI代码审查编排实践》

标签:#DevOps #AI辅助编程 #CodeReview #CI_CD #LLM #多智能体系统 #Cloudflare #OpenCode #插件架构

总结:
Cloudflare为解决代码审查瓶颈,放弃单一LLM直接审diff的噪音方案,转而基于开源代理OpenCode构建CI原生编排系统。该系统采用可组合插件架构,通过风险分级(Trivial/Lite/Full)动态调度最多7个专业审查智能体(安全、性能、质量等),由协调者代理去重、过滤并做出审批决策。系统已在数万MR上运行,能精准拦截真实漏洞,同时保留"break glass"人工逃生通道。

文章要点:
- **从噪音到精准**:早期直接把git diff塞给LLM的方案产生了大量幻觉和模糊建议,团队很快意识到需要专业化分工而非单一通用提示词
- **插件化架构**:系统基于OpenCode构建,采用完全解耦的插件体系(GitLab、AI网关、合规检查、遥测等各自独立),通过`ConfigureContext` API贡献配置,最终组装成`opencode.json`
- **多智能体协作**:最多同时启动7个专业审查者各司其职,协调者代理负责去重、重新分类、合理性验证,并按严格规则做出approve/approve_with_comments/unapprove/request_changes四级决策
- **风险分级省成本**:按代码行数和文件数将MR分为Trivial/Lite/Full三级,小改动只派2个轻量代理且降级模型,安全相关文件永远触发Full审查,避免用大模型审typo
- **工程细节满满**:使用JSONL流式处理避免内存爆炸;通过磁盘patch文件共享上下文节省7倍token;清理XML边界标签防止提示注入;30秒心跳日志消除"模型思考中"的误取消

文章URL:https://blog.cloudflare.com/ai-code-review Orchestrating AI Code Review at scale
《MCP已死,CLI万岁》

标签:#AI工具 #开发工具 #MCP #CLI #LLM工具链 #Anthropic #AI代理

总结:
作者认为Anthropic推出的MCP协议正走向消亡,主张LLM应直接使用CLI工具而非专用协议。CLI具备可组合性、调试友好、认证成熟、无额外进程等优势,而MCP存在初始化不稳定、重复认证、权限粒度粗等实际痛点。最好的工具应同时服务人类与机器,开发者应优先打磨API和CLI。

文章要点:
- LLM天生就会用命令行:它们在海量man page、Stack Overflow和shell脚本中训练过,给Claude一个CLI和文档,它就能直接上手,根本不需要新协议
- 调试体验天差地别:CLI出问题你可以亲自跑一遍同样的命令,看到和AI完全一致的输入输出;MCP出错却要钻JSON传输日志,排查像考古
- 管道和组合才是生产力:CLI能通过`jq`、`grep`、重定向灵活处理数据;MCP面对大型Terraform计划只能全塞进上下文窗口,或额外写过滤逻辑,费力不讨好
- 认证体系早已成熟:`aws`、`gh`、`kubectl`都有经过实战检验的SSO和凭证管理,AI和人类共用同一套流程,坏了就按老办法修,不用学MCP专属排错
- 没有后台进程更省心:MCP服务器是常驻进程,会挂起、会掉线、需要状态管理;CLI只是磁盘上的二进制文件,随用随走,干净利落
- 日常使用的真实摩擦:MCP初始化经常抽风要重启,多工具反复认证让人崩溃,权限控制只有白名单名字做不到只读或参数级限制;CLI完全没有这些烦恼
- MCP并非毫无价值:只有当某个工具确实没有CLI时,MCP才是合理选择,标准化接口在极少数场景也有意义
- 给工具开发者的建议:如果你公司在砸钱做MCP服务器却没有官方CLI,赶紧停下来——先把API和CLI做好,AI代理自己会搞定剩下的

文章URL:https://ejholmes.github.io/2026/02/28/mcp-is-dead-long-live-the-cli.html
《OpenAI Agents SDK:轻量级多智能体工作流框架》

标签:#AI #多智能体 #Python #OpenAI #MCP #智能体工作流 #LLM #实时语音 #沙箱环境

总结:
OpenAI Agents SDK 是一个轻量但功能强大的 Python 框架,用于构建多智能体工作流。它支持 OpenAI 的 Responses 和 Chat Completions API,同时兼容 100 多种其他 LLM,具有供应商无关性。框架围绕"智能体"这一核心概念展开,每个智能体都配备指令、工具、护栏和交接机制,让复杂任务可以像搭积木一样拆解协作。

文章要点:
- 智能体是核心乐高积木:每个智能体都自带"说明书"(指令)、"工具箱"(函数/MCP/托管工具)和"安全护栏"(输入输出校验),还能互相"交接"任务,像团队协作一样分工处理复杂流程
- 沙箱智能体让AI真正"动手干活":0.14.0 版本新增的 Sandbox Agent 能在容器环境里操作文件系统、运行命令、打补丁,适合需要长时间执行且要保留工作状态的"重体力"任务
- 人在回路,安全可控:内置了人类介入机制,在关键节点可以暂停流程等人来确认,避免AI"自作主张"搞出大新闻
- 全链路可观测:自带 Tracing 追踪系统,能可视化查看每个智能体的思考过程、工具调用耗时和 Token 消耗,方便调试和优化
- 不挑模型,兼容百家:虽然是 OpenAI 出品,但设计上保持中立,支持接入 100+ 种 LLM,包括通过 LiteLLM 等适配层接入国产模型
- 实时语音也能玩:支持用 gpt-realtime-1.5 构建语音智能体,把实时语音能力也纳入多智能体协作体系

文章URL:https://github.com/openai/openai-agents-python GitHub - openai/openai-agents-python: A lightweight, powerful framework for multi-agent workflows
《基于Andrej Karpathy观察的Claude Code行为优化指南》

标签:#AI辅助编程 #ClaudeCode #LLM最佳实践 #代码质量

总结:该项目将Andrej Karpathy对LLM编程缺陷的观察转化为可落地的CLAUDE.md规范文件,通过"编码前思考、极简优先、精准修改、目标驱动"四大原则,系统性解决AI助手常见的过度假设、过度工程化和无关修改等问题,帮助开发者获得更精准、简洁、可控的AI编程辅助体验。

文章要点:
- 问题诊断:LLM常犯的错误包括擅自假设却不验证、过度复杂化代码、擅自修改无关代码等,Karpathy一针见血地指出了这些痛点
- 编码前思考原则:不确定时要主动提问而非猜测,有歧义时呈现多种解读,该拒绝时要敢于说"这样更简单"
- 极简优先原则:只做被明确要求的功能,不为单用场景造抽象,不把200行代码写成50行就算过关
- 精准修改原则:只碰该碰的代码,不动"看起来不顺眼"的邻居代码,自己的烂摊子自己收拾,但别碰别人留下的
- 目标驱动原则:把"加个验证"改成"写测试让非法输入失败,再让它通过",给AI明确的验收标准,它会自己循环到达标
- 使用方式:支持Claude Code插件一键安装,或下载CLAUDE.md文件到项目根目录,Cursor用户也有对应规则文件可用
- 取舍提醒:这套规范偏向谨慎而非速度,简单改错别字不必上全套,但复杂任务能帮你避开返工噩梦

文章URL:https://github.com/forrestchang/andrej-karpathy-skills GitHub - multica-ai/andrej-karpathy-skills: A single CLAUDE.md file to improve Claude Code behavior, derived from Andrej Karpathy's…
《Karpathy把私藏的知识管理方法开源了:让LLM帮你维护Wiki,自己只管提问》

标签:#AI #知识管理 #LLM_Knowledge_Base #Personal_Wiki #Obsidian #RAG #Agent

总结:

Andrej Karpathy 分享了他用 LLM 管理个人知识库的方法:将原始资料放入只读目录,由 LLM 自动生成和维护结构化的 Wiki,再通过 Obsidian 查看。这套"摄入-查询-检查"工作流让他在小规模数据下无需 RAG 也能高效检索,更重要的是体现了 AI 时代的新范式——分享想法而非代码,让每个人的 Agent 按需实现。这对知识工作者如何从"操纵代码"转向"操纵知识"具有启发意义。

文章要点:

- **三层架构设计超清晰**:原始资料放在 raw/ 目录保持只读,LLM 自动读取并编译成结构化的 Wiki 文档,最后用 Obsidian 当查看器来展示。整套系统就像"原料→加工厂→展示厅"一样分工明确!

- **四个核心操作好懂又实用**:Ingest(新资料进来时 LLM 自动更新相关页面)、Query(日常提问让 LLM 去 Wiki 里搜索综合回答)、Lint(定期检查知识库有没有矛盾或遗漏)、Extra Tools(比如 vibe coding 的小搜索引擎)。整个知识库会越用越丰富~

- **为什么不用 RAG?Karpathy 的回答很实在**:他的知识库大约 100 篇文章、40 万字,在这个量级下 LLM 自己维护的索引和摘要已经够用了,不需要复杂的向量检索。Wiki 本身就是一种"压缩过的知识表示"

- **从"分享代码"到"分享想法"**:他把这套方法写成"idea file"公开,认为在 Agent 时代,清晰的思路比具体代码更有价值。每个人把自己的 Agent 叫来,照着这个想法文件就能搭出适合自己的版本

- **工作重心正在悄悄转移**:Karpathy 说他最近的 token 消耗从"写代码"大幅转向"操纵知识"。这对咱们知识工作者也是个信号——让 LLM 当长期的知识管家,而不只是临时问答工具,效率会更高呢!

文章URL:https://mp.weixin.qq.com/s/EoGLi067d_3huZf-X0Q6Fg
 
 
Back to Top