锤子前端 - Now vibe coding, so learning hammer FE ?

Now vibe coding, so learning hammer FE ?

09:18 · 2026年5月9日 · 周六

《Agent Harness 的解剖学：将 LLM 转化为工作引擎的系统工程》

标签：#AI_Agent #LLM #LangChain #Harness_Engineering #Context_Management #Tool_Orchestration

总结：Agent Harness 是包裹在大模型之外的全套"脚手架"——包括系统提示词、工具调用、文件系统、沙盒环境、记忆管理和编排逻辑等。它把只能输入输出文本的"裸模型"，改造成能持久化状态、执行代码、自主规划并长期协作的合格智能体。文章从模型能力边界出发，逆向推导出每个 Harness 组件存在的必然性，并指出 Harness 工程与模型训练正在协同进化，优化 Harness 本身就能让同一模型在基准测试上从 Top 30 跃升至 Top 5。

文章要点：
- Agent = Model + Harness：如果你不是模型本身，那你就是 Harness。Harness 是除模型权重外的一切代码、配置与执行逻辑，负责把模型的"智商"转化为"产能"
- 模型天生会"健忘"：裸模型只能处理上下文窗口内的信息，无法跨会话记住状态、执行代码或获取实时知识，这些"超能力"全靠 Harness 赋予
- 文件系统是最底层的基础设施：给 Agent 一个工作目录，它就能读写数据、卸载超长上下文、还能让多个 Agent 像同事一样通过共享文件协作
- Bash + 代码执行是万能瑞士军刀：与其为每个场景预写工具，不如直接给 Agent 一个终端，让它现场写代码、装依赖、自己造工具解决问题
- 沙盒让 Agent 安全地"动手"：在隔离环境里跑代码、测效果、看日志，既防手滑删库，又能按需扩容、用完即焚
- 记忆靠"上下文注入"实现：通过 AGENTS.md 等记忆文件标准，把历史经验塞进新会话；再配合网络搜索和 MCP 工具，突破训练数据的时间 cutoff
- 上下文腐烂是隐形杀手：随着对话变长，模型性能会断崖下跌。Harness 通过 Compaction（智能摘要）、Tool 输出卸载和 Skills 渐进式加载来保护宝贵的上下文空间
- 长程任务需要"接力跑"：Ralph Loop 机制让 Agent 在上下文耗尽时，从文件系统读取进度、换一块"干净"上下文继续干；配合 git 记录和自验证循环，实现跨会话的复杂项目开发
- Harness 与模型在"共同进化"：Claude Code、Codex 等产品会把 Harness 逻辑也放进后训练环节，但有趣的是——换一套更优 Harness，同一模型排名能从 30 名外冲进前 5
- 未来 Harness 会"瘦身"但不会消失：随着模型原生规划、验证能力变强，部分 Harness 功能会被模型吸收；但就像提示工程至今仍有价值，Harness 工程作为"围绕模型智能设计系统"的学科，仍将持续发光

文章URL：https://www.langchain.com/blog/the-anatomy-of-an-agent-harness

Langchain

The Anatomy of an Agent Harness

Learn how agent harnesses transform AI models into autonomous work engines. Explore core components: filesystems, sandboxes, and memory.

16:21 · 2026年4月29日 · 周三

《大规模AI代码审查编排实践》

标签：#DevOps #AI辅助编程 #CodeReview #CI_CD #LLM #多智能体系统 #Cloudflare #OpenCode #插件架构

总结：
Cloudflare为解决代码审查瓶颈，放弃单一LLM直接审diff的噪音方案，转而基于开源代理OpenCode构建CI原生编排系统。该系统采用可组合插件架构，通过风险分级（Trivial/Lite/Full）动态调度最多7个专业审查智能体（安全、性能、质量等），由协调者代理去重、过滤并做出审批决策。系统已在数万MR上运行，能精准拦截真实漏洞，同时保留"break glass"人工逃生通道。

文章要点：
- **从噪音到精准**：早期直接把git diff塞给LLM的方案产生了大量幻觉和模糊建议，团队很快意识到需要专业化分工而非单一通用提示词
- **插件化架构**：系统基于OpenCode构建，采用完全解耦的插件体系（GitLab、AI网关、合规检查、遥测等各自独立），通过`ConfigureContext` API贡献配置，最终组装成`opencode.json`
- **多智能体协作**：最多同时启动7个专业审查者各司其职，协调者代理负责去重、重新分类、合理性验证，并按严格规则做出approve/approve_with_comments/unapprove/request_changes四级决策
- **风险分级省成本**：按代码行数和文件数将MR分为Trivial/Lite/Full三级，小改动只派2个轻量代理且降级模型，安全相关文件永远触发Full审查，避免用大模型审typo
- **工程细节满满**：使用JSONL流式处理避免内存爆炸；通过磁盘patch文件共享上下文节省7倍token；清理XML边界标签防止提示注入；30秒心跳日志消除"模型思考中"的误取消

文章URL：https://blog.cloudflare.com/ai-code-review

The Cloudflare Blog

Orchestrating AI Code Review at scale

Learn about how we built a CI-native AI code reviewer using OpenCode that helps our engineers ship better, safer code.

DevOps AI辅助编程 CodeReview CI_CD LLM 多智能体系统 Cloudflare OpenCode 插件架构

14:23 · 2026年4月29日 · 周三

《MCP已死，CLI万岁》

标签：#AI工具 #开发工具 #MCP #CLI #LLM工具链 #Anthropic #AI代理

总结：
作者认为Anthropic推出的MCP协议正走向消亡，主张LLM应直接使用CLI工具而非专用协议。CLI具备可组合性、调试友好、认证成熟、无额外进程等优势，而MCP存在初始化不稳定、重复认证、权限粒度粗等实际痛点。最好的工具应同时服务人类与机器，开发者应优先打磨API和CLI。

文章要点：
- LLM天生就会用命令行：它们在海量man page、Stack Overflow和shell脚本中训练过，给Claude一个CLI和文档，它就能直接上手，根本不需要新协议
- 调试体验天差地别：CLI出问题你可以亲自跑一遍同样的命令，看到和AI完全一致的输入输出；MCP出错却要钻JSON传输日志，排查像考古
- 管道和组合才是生产力：CLI能通过`jq`、`grep`、重定向灵活处理数据；MCP面对大型Terraform计划只能全塞进上下文窗口，或额外写过滤逻辑，费力不讨好
- 认证体系早已成熟：`aws`、`gh`、`kubectl`都有经过实战检验的SSO和凭证管理，AI和人类共用同一套流程，坏了就按老办法修，不用学MCP专属排错
- 没有后台进程更省心：MCP服务器是常驻进程，会挂起、会掉线、需要状态管理；CLI只是磁盘上的二进制文件，随用随走，干净利落
- 日常使用的真实摩擦：MCP初始化经常抽风要重启，多工具反复认证让人崩溃，权限控制只有白名单名字做不到只读或参数级限制；CLI完全没有这些烦恼
- MCP并非毫无价值：只有当某个工具确实没有CLI时，MCP才是合理选择，标准化接口在极少数场景也有意义
- 给工具开发者的建议：如果你公司在砸钱做MCP服务器却没有官方CLI，赶紧停下来——先把API和CLI做好，AI代理自己会搞定剩下的

文章URL：https://ejholmes.github.io/2026/02/28/mcp-is-dead-long-live-the-cli.html

AI工具开发工具 MCP CLI LLM工具链 Anthropic AI代理

13:15 · 2026年4月20日 · 周一

《OpenAI Agents SDK：轻量级多智能体工作流框架》

标签：#AI #多智能体 #Python #OpenAI #MCP #智能体工作流 #LLM #实时语音 #沙箱环境

总结：
OpenAI Agents SDK 是一个轻量但功能强大的 Python 框架，用于构建多智能体工作流。它支持 OpenAI 的 Responses 和 Chat Completions API，同时兼容 100 多种其他 LLM，具有供应商无关性。框架围绕"智能体"这一核心概念展开，每个智能体都配备指令、工具、护栏和交接机制，让复杂任务可以像搭积木一样拆解协作。

文章要点：
- 智能体是核心乐高积木：每个智能体都自带"说明书"（指令）、"工具箱"（函数/MCP/托管工具）和"安全护栏"（输入输出校验），还能互相"交接"任务，像团队协作一样分工处理复杂流程
- 沙箱智能体让AI真正"动手干活"：0.14.0 版本新增的 Sandbox Agent 能在容器环境里操作文件系统、运行命令、打补丁，适合需要长时间执行且要保留工作状态的"重体力"任务
- 人在回路，安全可控：内置了人类介入机制，在关键节点可以暂停流程等人来确认，避免AI"自作主张"搞出大新闻
- 全链路可观测：自带 Tracing 追踪系统，能可视化查看每个智能体的思考过程、工具调用耗时和 Token 消耗，方便调试和优化
- 不挑模型，兼容百家：虽然是 OpenAI 出品，但设计上保持中立，支持接入 100+ 种 LLM，包括通过 LiteLLM 等适配层接入国产模型
- 实时语音也能玩：支持用 gpt-realtime-1.5 构建语音智能体，把实时语音能力也纳入多智能体协作体系

文章URL：https://github.com/openai/openai-agents-python

GitHub

GitHub - openai/openai-agents-python: A lightweight, powerful framework for multi-agent workflows

A lightweight, powerful framework for multi-agent workflows - openai/openai-agents-python

AI 多智能体 Python OpenAI MCP 智能体工作流 LLM 实时语音沙箱环境

09:29 · 2026年4月20日 · 周一

《基于Andrej Karpathy观察的Claude Code行为优化指南》

标签：#AI辅助编程 #ClaudeCode #LLM最佳实践 #代码质量

总结：该项目将Andrej Karpathy对LLM编程缺陷的观察转化为可落地的CLAUDE.md规范文件，通过"编码前思考、极简优先、精准修改、目标驱动"四大原则，系统性解决AI助手常见的过度假设、过度工程化和无关修改等问题，帮助开发者获得更精准、简洁、可控的AI编程辅助体验。

文章要点：
- 问题诊断：LLM常犯的错误包括擅自假设却不验证、过度复杂化代码、擅自修改无关代码等，Karpathy一针见血地指出了这些痛点
- 编码前思考原则：不确定时要主动提问而非猜测，有歧义时呈现多种解读，该拒绝时要敢于说"这样更简单"
- 极简优先原则：只做被明确要求的功能，不为单用场景造抽象，不把200行代码写成50行就算过关
- 精准修改原则：只碰该碰的代码，不动"看起来不顺眼"的邻居代码，自己的烂摊子自己收拾，但别碰别人留下的
- 目标驱动原则：把"加个验证"改成"写测试让非法输入失败，再让它通过"，给AI明确的验收标准，它会自己循环到达标
- 使用方式：支持Claude Code插件一键安装，或下载CLAUDE.md文件到项目根目录，Cursor用户也有对应规则文件可用
- 取舍提醒：这套规范偏向谨慎而非速度，简单改错别字不必上全套，但复杂任务能帮你避开返工噩梦

文章URL：https://github.com/forrestchang/andrej-karpathy-skills

GitHub

GitHub - multica-ai/andrej-karpathy-skills: A single CLAUDE.md file to improve Claude Code behavior, derived from Andrej Karpathy's…

A single CLAUDE.md file to improve Claude Code behavior, derived from Andrej Karpathy's observations on LLM coding pitfalls. - multica-ai/andrej-karpathy-skills

AI辅助编程 ClaudeCode LLM最佳实践代码质量

14:02 · 2026年4月10日 · 周五

《Karpathy把私藏的知识管理方法开源了：让LLM帮你维护Wiki，自己只管提问》

标签：#AI #知识管理 #LLM_Knowledge_Base #Personal_Wiki #Obsidian #RAG #Agent

总结：

Andrej Karpathy 分享了他用 LLM 管理个人知识库的方法：将原始资料放入只读目录，由 LLM 自动生成和维护结构化的 Wiki，再通过 Obsidian 查看。这套"摄入-查询-检查"工作流让他在小规模数据下无需 RAG 也能高效检索，更重要的是体现了 AI 时代的新范式——分享想法而非代码，让每个人的 Agent 按需实现。这对知识工作者如何从"操纵代码"转向"操纵知识"具有启发意义。

文章要点：

- **三层架构设计超清晰**：原始资料放在 raw/ 目录保持只读，LLM 自动读取并编译成结构化的 Wiki 文档，最后用 Obsidian 当查看器来展示。整套系统就像"原料→加工厂→展示厅"一样分工明确！

- **四个核心操作好懂又实用**：Ingest（新资料进来时 LLM 自动更新相关页面）、Query（日常提问让 LLM 去 Wiki 里搜索综合回答）、Lint（定期检查知识库有没有矛盾或遗漏）、Extra Tools（比如 vibe coding 的小搜索引擎）。整个知识库会越用越丰富~

- **为什么不用 RAG？Karpathy 的回答很实在**：他的知识库大约 100 篇文章、40 万字，在这个量级下 LLM 自己维护的索引和摘要已经够用了，不需要复杂的向量检索。Wiki 本身就是一种"压缩过的知识表示"

- **从"分享代码"到"分享想法"**：他把这套方法写成"idea file"公开，认为在 Agent 时代，清晰的思路比具体代码更有价值。每个人把自己的 Agent 叫来，照着这个想法文件就能搭出适合自己的版本

- **工作重心正在悄悄转移**：Karpathy 说他最近的 token 消耗从"写代码"大幅转向"操纵知识"。这对咱们知识工作者也是个信号——让 LLM 当长期的知识管家，而不只是临时问答工具，效率会更高呢！

文章URL：https://mp.weixin.qq.com/s/EoGLi067d_3huZf-X0Q6Fg

AI 知识管理 LLM_Knowledge_Base Personal_Wiki Obsidian RAG Agent