长周期智能体真正缺的不是更长的上下文

引用：Toward Autonomous Long-Horizon Engineering for ML Research

这篇论文讨论的不是“怎么让模型再聪明一点”，而是一个更容易被忽视的问题：当智能体要连续工作十几个小时，甚至几天，它到底靠什么维持方向感。作者把答案压缩成一句话，强长程表现依赖 structured orchestration（结构化编排，也就是把不同阶段和不同角色组织起来）和 durable state continuity（可持久化的状态连续性，也就是任务状态不会随着对话轮次不断丢失）。我基本同意，而且我觉得后半句比前半句更重要。

原文要点

论文提出长周期工程任务的关键不只在模型推理，而在系统编排与状态连续性。
通过分层 orchestrator + 子 agent 以及 File-as-Bus 机制，把项目状态沉淀到可回读工件中。
消融结果显示移除持久状态机制后，长周期任务表现明显下降。

我的判断

这几年大家谈智能体，最容易滑进一个偷懒叙事，好像只要把上下文窗口做大、推理链拉长、工具接得更多，系统自然就会变成一个能持续干活的“研究员”。这篇论文的价值，在于它明确地说了句人话：不是的。长周期任务首先是系统问题，不是局部推理问题。

作者提出的 AiScientist，也就是一个面向长周期机器学习研究工程的智能体系统，有两个关键设计。第一个是分层编排，也就是让顶层 orchestrator（总调度者）负责阶段控制，把论文理解、计划、实现、实验这些环节交给专门 agent（执行子任务的专门角色）。第二个是 File-as-Bus，也就是把共享工作区里的文件当成状态传递总线，用分析、计划、代码、实验记录去承载状态，而不是靠一轮又一轮对话总结传递。我对第二点尤其买账，因为它戳中了很多 agent demo（智能体演示）最虚的地方。

很多智能体看起来会“协作”，其实只是把错误包装得更体面。上一个 agent 把局面总结成一段话，交给下一个 agent；下一个 agent 再基于这段话继续总结、继续行动。信息没有消失，只是被不断压缩，最后变成一种很流畅的失真。短任务里这还凑合，长任务里就会慢慢塌掉。环境为什么这样配，某次实验为什么失败，代码里哪个 workaround（临时补丁式绕法）是临时补丁，哪些指标是可信的，这些东西一旦只留在聊天记录里，后续 agent 基本只能靠猜。

所以我很喜欢论文里的一个表述，thin control over thick state，出现在系统设计部分对架构原则的概括里。顶层控制应该薄，项目状态必须厚。控制层只需要知道现在处在哪个阶段、接下来最值得推进什么；真正复杂的东西，比如实验日志、实现假设、失败原因、资源依赖，应该沉淀成可回读、可验证、可追责的工件。说得更直白一点，智能体不是靠“记性好”才变强，而是靠“会落盘”才变稳。

论文里的消融实验也说明了这点。去掉 File-as-Bus 之后，PaperBench 这种论文复现评测 benchmark（基准），以及 MLE-Bench Lite 这种机器学习工程竞赛基准上的表现都明显下降。这种结果并不让我意外。很多人把状态持久化当成工程细节，我反而觉得它更像能力边界。没有持久状态，智能体就只能一直活在一个被压缩过的现在，做不了真正的迭代。

当然，这篇论文也不是没有可疑的地方。它证明了文件化状态和分层编排有效，但还没有完全回答另一个更难的问题：什么样的工件才算“足够好”的工件。不是所有日志都有价值，不是所有计划都值得保存。如果工作区里堆满低质量分析、重复实验、互相冲突的结论，厚状态也会变成噪音沼泽。换句话说，File-as-Bus 不是把东西写下来就结束了，而是要求系统对工件质量有纪律，对权限边界有约束，对何时重读、何时更新有清晰约定。

我自己的判断是，未来一批真正能落地的 agent 系统，竞争点不会只是模型谁更聪明，而是谁更会管理项目状态。智能体进入复杂任务之后，最稀缺的不是 token（模型处理文本时消耗的计算单位），而是连续性。谁能在长时间跨度里保住上下文的骨架、失败的证据链和决策的来龙去脉，谁才更像一个可靠的搭档。

所以如果你今天还在把“更长上下文”当成长周期智能体的主解法，我会建议先退一步。先问问你的系统有没有像样的工作区，有没有稳定的工件结构，有没有让不同 agent 基于同一份现实协作，而不是基于彼此的转述协作。很多时候，问题根本不在模型脑子不够大，而在整个系统没有记账本。

结论很简单，这篇值得读。不是因为它已经把 autonomous research（自主研究智能体）做成了，而是因为它终于把一个经常被包装成模型能力的问题，老老实实拆回了系统设计问题。这个判断，我觉得比任何一组 benchmark 分数都更重要。

保留意见

论文证明了“持久状态有效”，但对“怎样保证工件质量与状态卫生”给出的实践细则仍有限。落地时若缺少工件淘汰、冲突处理和权限边界，厚状态可能演化为高噪声状态。