锤子前端 - Now vibe coding, so learning hammer FE ?

《Agent Harness 的解剖学：将 LLM 转化为工作引擎的系统工程》

标签：#AI_Agent #LLM #LangChain #Harness_Engineering #Context_Management #Tool_Orchestration

总结：Agent Harness 是包裹在大模型之外的全套"脚手架"——包括系统提示词、工具调用、文件系统、沙盒环境、记忆管理和编排逻辑等。它把只能输入输出文本的"裸模型"，改造成能持久化状态、执行代码、自主规划并长期协作的合格智能体。文章从模型能力边界出发，逆向推导出每个 Harness 组件存在的必然性，并指出 Harness 工程与模型训练正在协同进化，优化 Harness 本身就能让同一模型在基准测试上从 Top 30 跃升至 Top 5。

文章要点：
- Agent = Model + Harness：如果你不是模型本身，那你就是 Harness。Harness 是除模型权重外的一切代码、配置与执行逻辑，负责把模型的"智商"转化为"产能"
- 模型天生会"健忘"：裸模型只能处理上下文窗口内的信息，无法跨会话记住状态、执行代码或获取实时知识，这些"超能力"全靠 Harness 赋予
- 文件系统是最底层的基础设施：给 Agent 一个工作目录，它就能读写数据、卸载超长上下文、还能让多个 Agent 像同事一样通过共享文件协作
- Bash + 代码执行是万能瑞士军刀：与其为每个场景预写工具，不如直接给 Agent 一个终端，让它现场写代码、装依赖、自己造工具解决问题
- 沙盒让 Agent 安全地"动手"：在隔离环境里跑代码、测效果、看日志，既防手滑删库，又能按需扩容、用完即焚
- 记忆靠"上下文注入"实现：通过 AGENTS.md 等记忆文件标准，把历史经验塞进新会话；再配合网络搜索和 MCP 工具，突破训练数据的时间 cutoff
- 上下文腐烂是隐形杀手：随着对话变长，模型性能会断崖下跌。Harness 通过 Compaction（智能摘要）、Tool 输出卸载和 Skills 渐进式加载来保护宝贵的上下文空间
- 长程任务需要"接力跑"：Ralph Loop 机制让 Agent 在上下文耗尽时，从文件系统读取进度、换一块"干净"上下文继续干；配合 git 记录和自验证循环，实现跨会话的复杂项目开发
- Harness 与模型在"共同进化"：Claude Code、Codex 等产品会把 Harness 逻辑也放进后训练环节，但有趣的是——换一套更优 Harness，同一模型排名能从 30 名外冲进前 5
- 未来 Harness 会"瘦身"但不会消失：随着模型原生规划、验证能力变强，部分 Harness 功能会被模型吸收；但就像提示工程至今仍有价值，Harness 工程作为"围绕模型智能设计系统"的学科，仍将持续发光

文章URL：https://www.langchain.com/blog/the-anatomy-of-an-agent-harness

Langchain

The Anatomy of an Agent Harness

Learn how agent harnesses transform AI models into autonomous work engines. Explore core components: filesystems, sandboxes, and memory.