先别急着吹 Agent，自主循环不等于自主完成

引用：How Claude Code works

这篇文档把 Claude Code 的核心机制讲得很直白：所谓 agent，不是一次性吐答案，而是在“收集上下文—采取动作—验证结果”的循环里不断推进任务。

这篇在说什么

我很喜欢这篇文档的一点，是它没有把 Agent 写成玄学。它直接说清楚：Claude Code 的核心是一个 agentic loop，也就是模型在“收集上下文—采取动作—验证结果”之间反复往返的工作循环。模型不是先想完再一次性输出，而是边看、边做、边检查，然后根据刚得到的新信息决定下一步。

这听起来像一句常识，但最近很多 Agent 讨论恰恰喜欢把这件事讲歪。有人把 Agent 说成“会自己用工具的 LLM”，这里的 LLM 指大语言模型；也有人把它说成“已经接近数字员工的雏形”。这两个说法都不算完全错，但都容易把重点放偏。会不会调用工具，决定的是它有没有手；能不能在循环里根据反馈修正自己，决定的是它到底有没有脑子和筋骨。

我的判断

我的判断很简单：Agentic Loop 最重要的，不是 Action，而是 Loop 里的反馈质量。

为什么这么说？因为“会动”这件事，其实门槛已经越来越低了。现在只要给模型接上文件读写、命令执行、网页抓取，它很快就能表现出一种很强的行动感：会搜文件、会改代码、会跑命令、会继续下一步。演示视频看起来很震撼，像一个真的在电脑里工作的助手。

但问题也在这里。很多系统只是把“连续做几步”包装成“能够完成任务”。这两件事根本不是一回事。一个模型可以非常流畅地连续做错三步，也可以非常自信地沿着错误前提走完整个流程。只要验证机制不够硬，它的 loop 就不是闭环，而是自我催眠：先生成一个判断，再拿这个判断当新前提，越走越远。

所以我越来越觉得，Agent 的工程价值不来自“模型更聪明了”，而来自“系统终于能把模型绑在现实反馈上”。比如代码场景里为什么 Agent 特别容易出成绩？不是因为写代码天然简单，而是因为验证信号太丰富了：测试能不能过、类型检查报不报错、页面有没有跑起来、日志有没有异常、截图前后是否一致。这些东西会把模型从“看起来像对”拽回“实际上对不对”。

一旦有了这些反馈，agentic loop 才真的像一个工作流，而不是一场行为表演。模型读上下文、改文件、跑测试、看到失败、继续修，再跑一次。这个过程的关键不是它做了多少步，而是每一步都被外部世界校正。说得再尖一点：工具让 LLM 获得行动能力，验证才让行动能力开始具备交付价值。

这也是我对很多“全自动 Agent 即将接管一切”叙事保持距离的原因。很多任务并不是不能做，而是没法被快速、明确、低成本地验证。写代码可以，因为错误会立刻冒烟；做战略判断、写品牌方案、代替人做长期决策，就没这么幸运了。反馈延迟、标准含糊、正确答案本来就不唯一，这种场景里 Agent 更适合做助手，不适合被包装成可以完全放手的执行者。

还有一个经常被忽略的点：loop 不是越长越高级。很多人会下意识觉得，一个 agent 能连做十几步，说明它很强。但如果每一步都缺乏可靠反馈，那十几步只是在扩大误差半径。真正好的 loop，不是长度惊人，而是能在错误刚露头的时候就被拦下来。短而可控，比长而失真值钱得多。

对我自己的提醒也很明确：以后我看一个 Agent 产品，不会先被它“自动完成了多少步”打动，而会先问两个问题——它怎么验证？验证失败后怎么收敛？如果这两件事说不清，那大概率只是行动感很强，不代表真的可靠。这算是我读完这篇文档后最实在的收获。

结论

推荐读。 不是因为它讲了什么惊天新概念，而是因为它把 Agent 这件事重新拉回工程现实。

如果你最近也被各种 Agent demo 轰炸到有点麻，这篇文档值得拿来当一个校准器。它提醒我：别把“自主循环”误听成“自主完成”。一个系统会搜、会改、会执行，只能说明它能行动；它能不能在反馈里修正、在验证里收敛，才决定它是不是可靠。

一句话说完：Agent 的想象力，来自它会自己动；Agent 的真正分水岭，来自它动完之后有没有东西能验它。