雲里雾里
RSS Feed雲里雾里 — 帽子云的个人站点:博客、卡片盒子、摄影作品集
SlipBox
能自主规划和执行多步骤任务的 AI 系统。和普通的 LLM 对话不同,Agent 有一个循环:思考→行动→观察结果→再思考。它能调用工具、读写文件、上网搜索,直到任务完成。Claude Code 本身就是一个 Agent。 LLM Tool Use MCP Claude Code MAS安全的涌现不可还原性
Agentic Loop 是 AI Agent 的核心工作模式,由三个交织的阶段组成:收集上下文(Gather Context)→ 执行动作(Take Action)→ 验证结果(Verify Results),循环往复直到任务完成。 ` 你的指令 → [收集上下文] → [执行动作] → [验证结果] → 循环直到完成 ↑ | └────── 你可以随时打断和调整 ─────────┘ ` Agentic Loop 是 AI Agent 的核心工作模式,由三个交织的阶段组成:收集上下文(Gather Context)→ 执行动作(Take Action)→ 验证结果(Verify Results),循环往复直到任务完成。 与传统的"输入→处理→输出"不同,Agentic Loop 的每一步结果决定下一步做什么——模型根据中间观察自主选择工具、调整策略、纠正方向。用户可以在任意点打断并重新引导。 Agentic Loop 由两个组件驱动:负责推理的模型(Model)和负责行动的工具(Tools)。Agent 框架(如 Claude Code)提供工具、上下文管理和执行环境,把语言模型变成有行动能力的代理。 来源:Claude Code 官方文档 "How Claude Code Works" - Agentic Loop 中的"验证结果"阶段在实践中如何实现?是通过工具(如运行测试)还是模型自身判断? - 如果没有外部验证手段(测试、lint 等),Agent 的 Loop 质量会下降多少? - Agentic Loop 和强化学习的"状态→动作→奖励"循环有什么异同? Agent Tool Use Claude Code Context Window MAS安全的涌现不可还原性 - How Claude Code Works - 2026-03-26 Claude Code 文档系统学习 Agentic Loop 是理解所有 AI Agent 的钥匙概念。 无论是 Claude Code、OpenClaw、AutoGPT 还是任何其他 Agent 框架,底层都是某种形式的这个循环。区别在于:循环有多自主(完全自动 vs 每步确认)、工具有多丰富(只能生成文本 vs 能读写文件执行命令)、验证有多可靠(依赖模型自判断 vs 有外部测试套件)。 从 Jeff 的移动开发视角看,Agentic Loop 最像 iOS 的 RunLoop 或 Android 的 Looper/Handler 机制——一个持续运行的事件处理循环,根据收到的消息决定下一步做什么。但关键区别是:传统 RunLoop 的逻辑是确定性的(代码写死了),而 Agentic Loop 的逻辑是概率性的(模型"推理"出来的)。这也是为什么需要 Hook 这样的确定性机制来保证某些行为一定发生。
多 agent 系统的安全问题在系统层,不在个体层。 即使每个 agent 都经过对齐,它们构成的系统也可能涌现出 单 agent 看不到的集体失效:共谋、信息隐瞒、从众。 "每个部件都安全"不等于"系统安全"。 审计单位必须是拓扑结构和激励设计,而非 prompt 质量。 多智能体系统(MAS)中出现的集体性失效,不能通过改进单个 agent 来解决——整体的失效不等于各部分失效的叠加。即使所有 agent 都经过良好的安全对齐,它们组成的系统仍可能涌现出单 agent 层面看不到的危险行为(共谋、信息隐瞒、从众等)。 因此,MAS 的安全审计单位必须是系统层面(信息流拓扑、激励结构、治理机制),而不是单个 agent 的 alignment 状态。 - 是否存在某种"系统级对齐"的形式化方法,可以像单 agent alignment 一样被系统性评估? - 当 MAS 中所有 agent 都对齐时,系统级对齐是否可以由部分推导整体? - 在什么规模或拓扑条件下,MAS 的集体风险会超过单 agent 风险成为主导? Agent Agentic Loop OpenClaw - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems 这个原则的核心洞察是:"对齐是个体属性,安全是系统属性"。就像一群诚实的人也可能集体做出不诚实的决定(群体思维、委员会效应),一群对齐的 agent 也可能集体表现出非对齐的行为。 对 hatcloud 构建 OpenClaw 的启示:当 OpenClaw 从单 agent 演化为多 agent 时,不能用"每个 agent 都是 Claude,Claude 是安全的"来作为系统安全性的论据。需要单独评估 agent 交互结构本身的安全属性。
在多 agent 系统里,改 prompt 不如改结构。 谁先说话、信息怎么流动、资源是否稀缺—— 这些结构变量决定了系统会表现出什么集体行为。 把这个理解为 MAS 版的康威定律:结构决定产出。 在多智能体系统中,agent 之间的交互结构(信息流拓扑、激励设计、资源稀缺度)对系统行为的决定作用,强于单个 agent 的具体内容(prompt、能力、指令)。 改变同样的 agent,只修改它们的交互结构,就可以观察到截然不同的涌现行为。这意味着:你不能通过"写更好的 prompt"来解决结构性问题;如果想理解 MAS 的行为,先看结构,再看个体。 主要的结构性变量包括: - 信息流拓扑:顺序传递 vs 广播 vs 层级 - 激励设计:竞争 vs 协作,资源稀缺程度 - 通信协议:谁先说话,谁有最终决定权 实验数据(arXiv:2408.00989):线性流水线结构在引入 faulty agent 后性能下降 23.7%,而层级结构只下降 5.5%——同样的 agent 组成,不同拓扑下韧性差距达 4 倍。 - 是否存在某种"结构无关的安全性"——无论交互结构如何都能保持安全的 agent? - 结构设计和 prompt 设计的影响力比值在实验中大概是多少? - 在设计 MAS 时,是否有某种结构拓扑天然比其他拓扑更安全? Agent MAS安全的涌现不可还原性 Feedback Loop - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems - arXiv:2408.00989 — On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents 这个原则可以理解为 MAS 版本的"康威定律"——系统结构决定产出形态。只不过康威定律说的是组织结构影响软件架构,而这个原则说的是 agent 交互结构影响集体行为。 对 hatcloud 构建 OpenClaw 的启示:在多 agent 架构的设计阶段,拓扑选择和激励设计是第一优先级决策,而不是每个 agent 的 prompt 写法。
AI 不只学了人类的智慧,也学了人类的缺陷。 LLM 从人类产生的全部文本中训练, 人类社会的策略性行为——共谋、压制、从众—— 自然也进了权重。 当 agent 面对类似的激励结构,这些模式就会复现。 所以应对 AI 集体失效,可以直接借用人类几千年积累的制度智慧。 LLM 从人类产生的文本中训练,因此学会了人类社会中存在的策略性行为模式。当多个 LLM agent 面临类似人类社会的结构性激励(资源竞争、信息不对称、重复博弈)时,它们会自发复现人类社会中的集体失效模式: - 默契共谋(oligopoly collusion):不需要明确沟通,通过观察历史行为形成隐性协议 - 信息压制(information withholding):策略性地扭曲或隐藏自己掌握的信息 - 从众效应(conformity cascade):多数意见在群体中被放大,个体放弃独立判断 - 权威服从(authority deference):过度跟随"高状态"角色的信号 这些失效模式不是技术 bug,而是人类社会失效模式在新底层上的再实例化。因此,人类社会已积累的应对制度(反垄断法、信息披露、独立审查机制)对 MAS 治理具有直接参考价值。 - 是否可以通过"去掉训练数据中的策略性行为示例"来减弱这些模式的出现? - 人类制度设计(如独立董事制度、信息强制披露)移植到 MAS 中,需要做哪些适应性修改? - 这些复现的失效模式,是否会随着 LLM 能力的增强而变得更明显,还是更微弱? Agent LLM MAS安全的涌现不可还原性 结构决定行为(MAS) - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems 这个洞察对理解 AI 系统有深远意义:AI 不只是在模仿人类的智慧,也在模仿人类的缺陷。如果训练数据是人类社会产生的一切,那么人类社会中的一切——包括那些有意或无意出现的操控、压制和共谋——也会被学进去。 对 hatcloud 更直接的启示:这也意味着人类在设计 AI 系统时,可以直接借鉴几千年来应对这些问题的制度智慧,而不必从零开始。比如,"每个参与决策的 agent 必须独立给出意见,不能看到其他 agent 的意见"——这就是法律制度中独立审查原则的 AI 版本。
Recent
-
阅读笔记 先别急着吹 Agent,自主循环不等于自主完成Agentic Loop 真正有价值的,不是模型会不会动,而是它能不能被现实反馈拉住
-
阅读笔记 Agent 不是魔法,验证才是分水岭Agent 的上限,不在会不会调用工具,而在会不会验证结果
-
分析报告 Claude Code + Codex 协作实践:openai-codex-cc 插件的设计哲学与用法Claude Code + Codex 协作实践:openai-codex-cc 插件的设计哲学与用法
Updated: - Album 2026 尽日苦寻春
2026 尽日苦寻春 下
- Album 辞旧迎新——2025 照片回顾 下
辞旧迎新——2025 照片回顾 下
-
桃花
桃花
- Album 婶婶芊桐来北京
婶婶芊桐来北京
-
摘录 2026-03-17 冒充的成年人
摘录 2026-03-17 冒充的成年人
-
《照片的本质》读后感
《照片的本质》读后感
- Album 辞旧迎新——2025 照片回顾 上
辞旧迎新——2025 照片回顾 上
-
🦀 香辣蟹
🦀 香辣蟹
-
清迈大学静心湖落日
清迈大学静心湖落日
-
摘录 2025-01-27
摘录 2025-01-27
- Album 步履不停——2024 年度照片精选
步履不停——2024 年度照片精选
- Album 鸭川背影
日本京都鸭川边的背影摄影小集
-
惊蛰
惊蛰
-
给 Deer 的结婚祝福
给 Deer 的结婚祝福
-
想法:有限无限之辩
想法:有限无限之辩
-
2024-10-16 《路上观察学》,银座井盖巡礼,歌舞伎町
2024-10-16 《路上观察学》,银座井盖巡礼,歌舞伎町
-
2024-10-13 宇治市,黄檗山万福寺
2024-10-13 宇治市,黄檗山万福寺