AI社会“内鬼”追踪:上海AI Lab发布多智能体极端事件解释框架

上海AI Lab发布新框架,揭示AI社会极端事件的五大规律,助力防患未然。

原文标题:在AI社会抓「内鬼」?上海AI Lab推出首个多智能体极端事件解释框架

原文作者:机器之心

冷月清谈:

上海AI Lab联合多家高校推出首个多智能体极端事件解释框架,旨在诊断和解释多智能体系统(MAS)中出现的极端事件。该框架通过博弈论中的沙普利值,将系统风险分解到每个智能体的具体动作上,并从时间、智能体和行为模式三个维度进行风险归因。研究发现,极端事件具有五大共性演化规律,包括风险潜伏期、少数高危智能体驱动、行为不稳定性、智能体风险同步性和特定“毒瘤行为”。通过移除高风险动作进行重演,系统崩溃风险显著降低,表明该框架可用于主动防御,在关键节点干预高危智能体和行为模式,从而实现防患于未然。这项研究为理解和应对AI社会中的潜在风险提供了重要工具。

怜星夜思:

1、文章中提到“极端事件往往由少数的高危智能体驱动”,那么在现实社会中,你认为是否存在类似的“高危个体/群体”?他们/它们又有哪些共同特征?
2、文章中提到了“羊群效应”,在智能体之间会形成隐形的默契,它们倾向于同步地增加或减少系统风险。在如今的社交媒体使用中,你是否也观察到类似的现象?这种现象是好是坏?
3、文章提到可以通过移除“危险动作”来降低系统风险。你认为在现实生活中,有哪些“危险动作”应该被重点监管或干预?

原文内容


序言:数字镜像中的极端涌现


风起于青萍之末、不稳定的害群之马、羊群效应、毒瘤行为......

—— 在数字镜像的背面,这群科学家凝视着 AI 社会的「黑天鹅」时刻。


2023 年,斯坦福「模拟小镇」(Smallville)的爆火出圈,开启了大语言模型(LLM)驱动多智能体系统(MAS)模拟人类社会的元年。


如今,学术界已经构建出了各种高度复杂、垂直领域的 MAS 沙盒 —— 从复现宏观经济运行的社会系统,到模拟股票交易的金融市场,再到推演舆论演化的社交网络。多智能体系统,正真正成为全方位映射人类社会的数字镜像。


然而,随着系统复杂程度的攀升,一种令人不安却极具研究价值的现象随之浮现:恶性通胀、股市崩盘、群体极化…… 这些现实人类社会的「黑天鹅」极端事件,竟也在这群 AI 身上精准重演了。


这类极端事件的出现并非源于代码漏洞,而是来自系统演化的自发涌现。


上海人工智能实验室联合上海交通大学、复旦大学、中国人民大学、同济大学开展的一项最新研究,决定拆解这些数字镜像中的「黑天鹅」演化过程,揪出那个藏在复杂涌现背后、诱发系统崩溃的「内鬼」。



  • 论文链接: https://arxiv.org/pdf/2601.20538

  • 开源代码: https://github.com/mjl0613ddm/IEEE


涌现背后的「黑盒」难题


智能体之间庞杂的非线性交互,构成了一个巨大的涌现「黑盒」。我们往往能目睹系统一步步滑向崩溃,却难以准确定义:危机是从哪一刻开始滋生的?是谁带的头?又是哪一次微小的交互最终扣动了扳机?


要跨越从「观测灾难」到「解释灾难」的鸿沟,研究团队必须撬开这个系统黑盒,正面回答三个溯源难题:


  • 何时起源(When): 极端事件的火苗,到底是从哪一刻开始积累的?

  • 由谁驱动(Who): 谁是导致系统崩溃的关键高危智能体?

  • 何种行为(What): 究竟是哪些具体的行为模式促成了最终的危机?


在系统重演中做「数字解剖」



针对以上问题,研究团队推出了首个专门用于诊断 MAS 极端事件的解释框架。


这套框架的核心「手术刀」,正是博弈论中的沙普利值(Shapley Value)。借助这一工具,系统爆发的巨大灾难风险被精准拆解并公平摊分到了每一个智能体、在每一时刻做出的每一个具体动作上。


为了从海量的交互碎片中锁定真相,研究团队将每一个动作的风险贡献,沿着时间、智能体、行为模式(When/Who/What)三个维度进行了归纳聚类。 每一时刻、每一个智能体、每一种行为模式对这场危机造成了多少的边际影响都能被计算结果精准量化。


基于这种全方位的风险画像,团队进一步设计出了五把量化风险的标尺,用以刻画极端事件的演化特征:风险潜伏期图片、智能体风险集中度图片、风险 - 不稳定性相关性图片、智能体风险同步性图片、行为风险集中度图片



结论:极端事件五大演化规律


研究团队深入宏观经济、金融市场和社交平台等高度拟真的 MAS 沙盒,对多起极端事件进行追踪重演。透过对海量数据的「数字解剖」,研究团队发现,那些横跨不同场景、看似无序的 AI 社会崩盘,最终在底层显现出五条共性的演化规律:



  • 发现 1(风起于青萍之末): 极端事件呈现出差异化的时间演化特征:要么是风险早已埋下伏笔,蓄势待发;要么是大部分风险源于当下,瞬间引爆。

  • 发现 2(害群之马): 极端事件往往由少数的高危智能体驱动。

  • 发现 3(不稳定性): 对系统崩溃贡献越大的智能体,其日常行为往往表现出极高的不稳定性。

  • 发现 4(羊群效应): 智能体之间会形成隐形的默契,它们倾向于同步地增加或减少系统风险。

  • 发现 5(毒瘤行为): 导致系统崩盘的绝大部分风险,其实只源自极少数特定的行为模式。


这些发现共同指向一个结论:极端事件并非不可理解,而是具有稳定结构的系统性结果。


重新编译一个安全的未来


这套框架不光能给出事后的「病理剖析」,它更像是一套面向未来的主动防御系统。


实验结果表明:当研究人员根据框架算出的风险归因分数,在系统中定向移除那些高贡献的「危险动作」并重演后,整体的系统崩溃风险出现了断崖式下降。



这意味着什么?


在风险演化的关键节点,只要精准监管并干预那些具有高危特征的智能体和行为模式,我们有望在 AI 模拟的数字世界 —— 乃至未来的现实社会中,实现真正的防患于未然。


结语:面对多智能体构建的现实镜像,我们不能只做惊叹于涌现现象的看客。掌握解释的工具,才能重新编译一个更加安全的未来。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

绝对存在!历史上的很多危机事件,比如金融危机、社会动荡,往往都是由少数关键人物或者机构的行为引起的。这些“高危个体/群体”往往掌握着大量资源或者权力,他们的决策能够影响整个系统。而且,他们可能具有一定的冒险精神,为了追求自身利益,容易忽视潜在的风险。

社交媒体上的“羊群效应”太常见了!一个热点事件爆发,大家一窝蜂地转发、评论,很多时候根本没有经过独立思考。这种现象既有好处也有坏处。好处是能够快速传播信息,凝聚社会共识;坏处是容易被操纵,形成网络暴力,甚至引发社会恐慌。

过度借贷也算吧。你看那些P2P平台爆雷,多少人血本无归。提前消费是陷阱啊,还是要理性消费,量力而行。

金融领域的内幕交易、操纵市场肯定是“危险动作”,必须严厉打击!这些行为不仅损害了投资者的利益,也破坏了市场的公平性和透明度。

社交媒体的算法机制会放大“羊群效应”,让大家都以为自己代表了大多数。但实际上,很可能只是身处某个特定的信息bubble里。保持独立思考的能力太重要了,不要人云亦云。

我觉得散布谣言、煽动对立也是“危险动作”。在信息时代,谣言的传播速度非常快,很容易引发社会恐慌和混乱。应该加强对网络信息的监管,及时辟谣,维护社会稳定。

坏处大于好处吧。尤其是在算法推荐的加持下,信息茧房效应越来越明显,大家更容易接收到与自己观点相同的信息,从而加剧了群体极化。不同观点的人之间缺乏沟通和理解,社会共识越来越难达成。

从概率角度看,社会符合幂律分布,注定一小部分人会造成大的影响。共同特征的话,我认为是对风险的认知偏差,觉得自己能hold住,过于自信吧。