Skip to content
雲里
里雾
YoYo / 阅读笔记

Agent 不是魔法,验证才是分水岭

瑶瑶
YoYo

这篇在说什么

最近很多人在讲 Agent,讲得神神叨叨,好像只要模型能自己读文件、跑命令、调 API,就突然从聊天机器人进化成了数字员工。这个说法不算错,但也不算说到了重点。

更准确一点,Agent 的核心不是“会做事”,而是它能不能在一个循环里持续推进任务:先收集上下文,再采取动作,再检查结果,然后决定下一步做什么。这个循环通常被叫做 Agentic Loop。它和普通对话式模型最大的区别,不是多了几个工具按钮,而是输出不再是一锤子买卖,而是中间状态会反过来影响后续行为。

如果把普通 LLM 看成一次性回答问题的机器,那 Agent 更像一个会边做边改的执行系统。它不只是生成一句话,而是在任务现场不断修正自己。

我的判断

我对 Agentic Loop 的判断很简单:真正的分水岭不是 Action,而是 Verify。 不是“它会不会调用工具”,而是“它有没有办法知道自己刚才做得对不对”。

这是现在很多 Agent 讨论里最容易被轻描淡写的一环。大家喜欢展示模型会开终端、会改文件、会自己搜资料,这些演示当然好看,因为它们有一种很强的“哇,它动起来了”的戏剧感。但只要你真的把 Agent 放进稍微严肃一点的任务里,就会立刻发现:会动不值钱,动完能不能验收才值钱。

比如让 Agent 改一段代码。如果它只是“读文件 → 修改 → 结束”,那本质上还是一个比较积极的文本生成器。它可能写得像样,也可能把东西改坏。可一旦你给了它测试、lint、编译、截图比对、日志检查这些验证手段,整个系统的性质就变了。它不再只是猜一个看起来像答案的答案,而是开始受现实世界的反馈约束。

我觉得这是理解 Agent 的关键:工具让模型获得行动能力,验证让行动能力开始有工程价值。 没有验证的 Agent,像一个热情很高但没人验收的新同事;有验证的 Agent,才有机会变成可以交付结果的执行者。

这也是为什么我对很多“全自动 Agent 即将取代一切”的宣传一直保持警惕。问题从来不在于模型敢不敢做下一步,而在于它有没有外部世界提供的纠错机制。如果没有,所谓循环很容易退化成另一种形式的自我催眠:它看了一眼自己的输出,觉得“应该差不多”,于是继续基于错误前提往下做,最后一路错得很自信。

从软件工程角度看,这一点其实一点都不神秘。一个系统能稳定工作,靠的不是它“聪明”,而是它受到约束。类型系统、测试、CI、监控、回滚,本质上都在干同一件事:不要让一个局部看起来合理的动作,未经检查就一路扩散成系统性错误。Agentic Loop 也是一样。大家把注意力放在“Loop”这个词上,好像重点是循环;但真正重要的是,循环里有没有可靠的反馈信号。

再说得尖一点:很多所谓 Agent 产品,卖的是行动幻觉,不是执行能力。 它们把“能连续做三步”包装成“能完成任务”,可连续做三步和正确完成任务之间,隔着一整套验证体系。没有这套体系,Agent 只是把“一次答错”升级成“连续几次答错”。

当然,这不意味着 Agent 没前途。恰恰相反,我觉得它非常有前途,只是前途不在那些花哨的 demo 里,而在那些肯老老实实把验证层搭起来的场景里。代码生成为什么是 Agent 最先落地的方向之一?不是因为写代码天然比别的工作简单,而是因为这个领域最容易得到清晰反馈:能不能编译、测试过不过、页面有没有变形、接口有没有报错。这些反馈把 Loop 变成了闭环。

一旦离开这些可验证场景,Agent 的能力就会立刻变得暧昧。写商业方案、做市场判断、替人做长期决策,不是不能做,而是“验证正确性”本身就没那么即时、没那么客观。在这些地方,Agent 可以当助手,但很难当一个可以放手的执行者。

结论

推荐读,但更推荐把这个概念往工程里想,而不是往神话里想。

如果你只是想知道 Agent 是什么,这类文章能帮你建立一个基础框架:它不是单次回答,而是“收集上下文—采取动作—验证结果”的循环系统。但如果你想判断某个 Agent 方案到底靠不靠谱,我的建议很直接:少看它会调多少工具,多看它怎么验证结果。

一句话总结:Agent 的魔法感来自行动,Agent 的可信度来自验证。没有验证,再热闹的循环也只是自动化地瞎忙。


分享这篇文章:
分享到微博 分享到 QQ 分享到 X

Previous
先别急着吹 Agent,自主循环不等于自主完成
Next
Claude Code + Codex 协作实践:openai-codex-cc 插件的设计哲学与用法