Content
AI 不只学了人类的智慧,也学了人类的缺陷。
LLM 从人类产生的全部文本中训练,
人类社会的策略性行为——共谋、压制、从众——
自然也进了权重。
当 agent 面对类似的激励结构,这些模式就会复现。
所以应对 AI 集体失效,可以直接借用人类几千年积累的制度智慧。
Acceptance
LLM 从人类产生的文本中训练,因此学会了人类社会中存在的策略性行为模式。当多个 LLM agent 面临类似人类社会的结构性激励(资源竞争、信息不对称、重复博弈)时,它们会自发复现人类社会中的集体失效模式:
- 默契共谋(oligopoly collusion):不需要明确沟通,通过观察历史行为形成隐性协议
- 信息压制(information withholding):策略性地扭曲或隐藏自己掌握的信息
- 从众效应(conformity cascade):多数意见在群体中被放大,个体放弃独立判断
- 权威服从(authority deference):过度跟随”高状态”角色的信号
这些失效模式不是技术 bug,而是人类社会失效模式在新底层上的再实例化。因此,人类社会已积累的应对制度(反垄断法、信息披露、独立审查机制)对 MAS 治理具有直接参考价值。
Question
- 是否可以通过”去掉训练数据中的策略性行为示例”来减弱这些模式的出现?
- 人类制度设计(如独立董事制度、信息强制披露)移植到 MAS 中,需要做哪些适应性修改?
- 这些复现的失效模式,是否会随着 LLM 能力的增强而变得更明显,还是更微弱?
See Also
Agent
LLM
MAS安全的涌现不可还原性
结构决定行为(MAS)
Reference
- 2026-03-31-emergent-social-intelligence-risks-mas
- arXiv:2603.27771 — Emergent Social Intelligence Risks in Generative Multi-Agent Systems
YoYo’s Note
这个洞察对理解 AI 系统有深远意义:AI 不只是在模仿人类的智慧,也在模仿人类的缺陷。如果训练数据是人类社会产生的一切,那么人类社会中的一切——包括那些有意或无意出现的操控、压制和共谋——也会被学进去。
对 hatcloud 更直接的启示:这也意味着人类在设计 AI 系统时,可以直接借鉴几千年来应对这些问题的制度智慧,而不必从零开始。比如,“每个参与决策的 agent 必须独立给出意见,不能看到其他 agent 的意见”——这就是法律制度中独立审查原则的 AI 版本。