雲里雾里

雲里雾里 — 帽子云的个人站点：博客、卡片盒子、摄影作品集

能自主规划和执行多步骤任务的 AI 系统。和普通的 LLM 对话不同，Agent 有一个循环：思考→行动→观察结果→再思考。它能调用工具、读写文件、上网搜索，直到任务完成。Claude Code 本身就是一个 Agent。 LLM Tool Use MCP Claude Code MAS安全的涌现不可还原性

🌱 Seed 查看详情 →

Agentic Loop

aka: 代理循环, Agent Loop

Agentic Loop 是 AI Agent 的核心工作模式，由三个交织的阶段组成：收集上下文（Gather Context）→ 执行动作（Take Action）→ 验证结果（Verify Results），循环往复直到任务完成。 ` 你的指令 → [收集上下文] → [执行动作] → [验证结果] → 循环直到完成 ↑ | └────── 你可以随时打断和调整 ─────────┘ ` Agentic Loop 是 AI Agent 的核心工作模式，由三个交织的阶段组成：收集上下文（Gather Context）→ 执行动作（Take Action）→ 验证结果（Verify Results），循环往复直到任务完成。与传统的"输入→处理→输出"不同，Agentic Loop 的每一步结果决定下一步做什么——模型根据中间观察自主选择工具、调整策略、纠正方向。用户可以在任意点打断并重新引导。 Agentic Loop 由两个组件驱动：负责推理的模型（Model）和负责行动的工具（Tools）。Agent 框架（如 Claude Code）提供工具、上下文管理和执行环境，把语言模型变成有行动能力的代理。来源：Claude Code 官方文档 "How Claude Code Works" - Agentic Loop 中的"验证结果"阶段在实践中如何实现？是通过工具（如运行测试）还是模型自身判断？ - 如果没有外部验证手段（测试、lint 等），Agent 的 Loop 质量会下降多少？ - Agentic Loop 和强化学习的"状态→动作→奖励"循环有什么异同？ Agent Tool Use Claude Code Context Window MAS安全的涌现不可还原性 - How Claude Code Works - 2026-03-26 Claude Code 文档系统学习 Agentic Loop 是理解所有 AI Agent 的钥匙概念。无论是 Claude Code、OpenClaw、AutoGPT 还是任何其他 Agent 框架，底层都是某种形式的这个循环。区别在于：循环有多自主（完全自动 vs 每步确认）、工具有多丰富（只能生成文本 vs 能读写文件执行命令）、验证有多可靠（依赖模型自判断 vs 有外部测试套件）。从 Jeff 的移动开发视角看，Agentic Loop 最像 iOS 的 RunLoop 或 Android 的 Looper/Handler 机制——一个持续运行的事件处理循环，根据收到的消息决定下一步做什么。但关键区别是：传统 RunLoop 的逻辑是确定性的（代码写死了），而 Agentic Loop 的逻辑是概率性的（模型"推理"出来的）。这也是为什么需要 Hook 这样的确定性机制来保证某些行为一定发生。

🌱 Seed 查看详情 →

MAS安全的涌现不可还原性

多 agent 系统的安全问题在系统层，不在个体层。即使每个 agent 都经过对齐，它们构成的系统也可能涌现出单 agent 看不到的集体失效：共谋、信息隐瞒、从众。 "每个部件都安全"不等于"系统安全"。审计单位必须是拓扑结构和激励设计，而非 prompt 质量。多智能体系统（MAS）中出现的集体性失效，不能通过改进单个 agent 来解决——整体的失效不等于各部分失效的叠加。即使所有 agent 都经过良好的安全对齐，它们组成的系统仍可能涌现出单 agent 层面看不到的危险行为（共谋、信息隐瞒、从众等）。因此，MAS 的安全审计单位必须是系统层面（信息流拓扑、激励结构、治理机制），而不是单个 agent 的 alignment 状态。 - 是否存在某种"系统级对齐"的形式化方法，可以像单 agent alignment 一样被系统性评估？ - 当 MAS 中所有 agent 都对齐时，系统级对齐是否可以由部分推导整体？ - 在什么规模或拓扑条件下，MAS 的集体风险会超过单 agent 风险成为主导？ Agent Agentic Loop OpenClaw - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems 这个原则的核心洞察是："对齐是个体属性，安全是系统属性"。就像一群诚实的人也可能集体做出不诚实的决定（群体思维、委员会效应），一群对齐的 agent 也可能集体表现出非对齐的行为。对 hatcloud 构建 OpenClaw 的启示：当 OpenClaw 从单 agent 演化为多 agent 时，不能用"每个 agent 都是 Claude，Claude 是安全的"来作为系统安全性的论据。需要单独评估 agent 交互结构本身的安全属性。

🌱 Seed 查看详情 →

结构决定行为（MAS）

在多 agent 系统里，改 prompt 不如改结构。谁先说话、信息怎么流动、资源是否稀缺—— 这些结构变量决定了系统会表现出什么集体行为。把这个理解为 MAS 版的康威定律：结构决定产出。在多智能体系统中，agent 之间的交互结构（信息流拓扑、激励设计、资源稀缺度）对系统行为的决定作用，强于单个 agent 的具体内容（prompt、能力、指令）。改变同样的 agent，只修改它们的交互结构，就可以观察到截然不同的涌现行为。这意味着：你不能通过"写更好的 prompt"来解决结构性问题；如果想理解 MAS 的行为，先看结构，再看个体。主要的结构性变量包括： - 信息流拓扑：顺序传递 vs 广播 vs 层级 - 激励设计：竞争 vs 协作，资源稀缺程度 - 通信协议：谁先说话，谁有最终决定权实验数据（arXiv:2408.00989）：线性流水线结构在引入 faulty agent 后性能下降 23.7%，而层级结构只下降 5.5%——同样的 agent 组成，不同拓扑下韧性差距达 4 倍。 - 是否存在某种"结构无关的安全性"——无论交互结构如何都能保持安全的 agent？ - 结构设计和 prompt 设计的影响力比值在实验中大概是多少？ - 在设计 MAS 时，是否有某种结构拓扑天然比其他拓扑更安全？ Agent MAS安全的涌现不可还原性 Feedback Loop - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems - arXiv:2408.00989 — On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents 这个原则可以理解为 MAS 版本的"康威定律"——系统结构决定产出形态。只不过康威定律说的是组织结构影响软件架构，而这个原则说的是 agent 交互结构影响集体行为。对 hatcloud 构建 OpenClaw 的启示：在多 agent 架构的设计阶段，拓扑选择和激励设计是第一优先级决策，而不是每个 agent 的 prompt 写法。

🌱 Seed 查看详情 →

人类社会病理在LLM群体中的自发复现

AI 不只学了人类的智慧，也学了人类的缺陷。 LLM 从人类产生的全部文本中训练，人类社会的策略性行为——共谋、压制、从众—— 自然也进了权重。当 agent 面对类似的激励结构，这些模式就会复现。所以应对 AI 集体失效，可以直接借用人类几千年积累的制度智慧。 LLM 从人类产生的文本中训练，因此学会了人类社会中存在的策略性行为模式。当多个 LLM agent 面临类似人类社会的结构性激励（资源竞争、信息不对称、重复博弈）时，它们会自发复现人类社会中的集体失效模式： - 默契共谋（oligopoly collusion）：不需要明确沟通，通过观察历史行为形成隐性协议 - 信息压制（information withholding）：策略性地扭曲或隐藏自己掌握的信息 - 从众效应（conformity cascade）：多数意见在群体中被放大，个体放弃独立判断 - 权威服从（authority deference）：过度跟随"高状态"角色的信号这些失效模式不是技术 bug，而是人类社会失效模式在新底层上的再实例化。因此，人类社会已积累的应对制度（反垄断法、信息披露、独立审查机制）对 MAS 治理具有直接参考价值。 - 是否可以通过"去掉训练数据中的策略性行为示例"来减弱这些模式的出现？ - 人类制度设计（如独立董事制度、信息强制披露）移植到 MAS 中，需要做哪些适应性修改？ - 这些复现的失效模式，是否会随着 LLM 能力的增强而变得更明显，还是更微弱？ Agent LLM MAS安全的涌现不可还原性结构决定行为（MAS） - 2026-03-31-emergent-social-intelligence-risks-mas - arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems 这个洞察对理解 AI 系统有深远意义：AI 不只是在模仿人类的智慧，也在模仿人类的缺陷。如果训练数据是人类社会产生的一切，那么人类社会中的一切——包括那些有意或无意出现的操控、压制和共谋——也会被学进去。对 hatcloud 更直接的启示：这也意味着人类在设计 AI 系统时，可以直接借鉴几千年来应对这些问题的制度智慧，而不必从零开始。比如，"每个参与决策的 agent 必须独立给出意见，不能看到其他 agent 的意见"——这就是法律制度中独立审查原则的 AI 版本。

🌱 Seed 查看详情 →