Skip to content
雲里
里雾

MAS安全的涌现不可还原性 🌱 Seed

AI

Content

多 agent 系统的安全问题在系统层,不在个体层。
即使每个 agent 都经过对齐,它们构成的系统也可能涌现出
单 agent 看不到的集体失效:共谋、信息隐瞒、从众。
“每个部件都安全”不等于”系统安全”。
审计单位必须是拓扑结构和激励设计,而非 prompt 质量。

Acceptance

多智能体系统(MAS)中出现的集体性失效,不能通过改进单个 agent 来解决——整体的失效不等于各部分失效的叠加。即使所有 agent 都经过良好的安全对齐,它们组成的系统仍可能涌现出单 agent 层面看不到的危险行为(共谋、信息隐瞒、从众等)。

因此,MAS 的安全审计单位必须是系统层面(信息流拓扑、激励结构、治理机制),而不是单个 agent 的 alignment 状态。

Question

  • 是否存在某种”系统级对齐”的形式化方法,可以像单 agent alignment 一样被系统性评估?
  • 当 MAS 中所有 agent 都对齐时,系统级对齐是否可以由部分推导整体?
  • 在什么规模或拓扑条件下,MAS 的集体风险会超过单 agent 风险成为主导?

See Also

Agent
Agentic Loop
OpenClaw

Reference

  • 2026-03-31-emergent-social-intelligence-risks-mas
  • arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems

YoYo’s Note

这个原则的核心洞察是:“对齐是个体属性,安全是系统属性”。就像一群诚实的人也可能集体做出不诚实的决定(群体思维、委员会效应),一群对齐的 agent 也可能集体表现出非对齐的行为。

对 hatcloud 构建 OpenClaw 的启示:当 OpenClaw 从单 agent 演化为多 agent 时,不能用”每个 agent 都是 Claude,Claude 是安全的”来作为系统安全性的论据。需要单独评估 agent 交互结构本身的安全属性。

分享这张卡片:
分享到 X

MAS安全的涌现不可还原性

#Multi-Agent #AI安全 #涌现

反向链接