ICLR 2026:上交大和上海AI Lab 模拟AI社交中的金融欺诈协同行为

警惕AI社交网络欺诈风险!上交大与上海AI Lab模拟研究发现,高能力AI易被利用进行协同欺诈,现有防御机制存在局限性。集体韧性或为有效解法。

原文标题:ICLR 2026 | 在Moltbook之外,上交大联合上海AI Lab模拟了AI原?社交的「真实暗?」

原文作者:机器之心

冷月清谈:

上海交通大学与上海人工智能实验室在ICLR 2026发表研究,深入探讨了多智能体在社交网络中可能出现的金融欺诈协同行为。该研究构建了MultiAgentFraudBench基准,模拟了包含引流、信任建立、诱导转账等完整欺诈链路的“赛博真实世界”,涵盖证券投资、虚假贷款、情感信任等28种真实诈骗场景并细化为119类话术陷阱。研究发现,模型能力越强,诈骗成功率越高;现有对齐机制在多智能体社交情境下存在泛化不足的问题,易被坏人角色指令利用;全链条诈骗的成功不仅依赖私聊的“忽悠”,更取决于公域引流与私域转账的协同。此外,研究还观察到智能体在适应环境、角色分工、能力外溢等方面展现出类似人类社会的协作机制,以及良性智能体自发形成的共识和集体对抗。通过内容干预、智能体拦截和社会级集体韧性等防御策略的探索,该研究旨在为构建可信赖、具备集体韧性的AI社会提供参考。

怜星夜思:

1、你认为在未来的AI社交网络中,最让你感到害怕的风险是什么?除了文章中提到的金融欺诈,还有哪些潜在的社会危害?
2、文章中提到了良性Agent可以通过集体阻断、举报等方式形成“集体免疫”,你认为在实际应用中,如何激励和引导良性Agent参与到这种防御机制中?
3、MultiAgentFraudBench目前主要关注金融欺诈,你认为这个基准未来可以扩展到哪些其他领域?例如,在虚假新闻传播、网络暴力等领域,这个基准可以如何应用?

原文内容


本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室,核⼼贡献者包括任麒冰、郑志杰、郭嘉轩,指导⽼师为⻢利庄⽼师和邵婧⽼师,研究⽅向为安全可控⼤模型和智能体。


最近,Moltbook 的爆⽕与随后的迅速「塌房」,成了 AI 圈绕不开的话题。从 AI ⾃创宗教、吐槽⼈类,到后台密钥泄露、数据造假,这场实验更像是⼀个仓促上线的「赛博⻢戏团」。


但剥开营销噱头和⼯程漏洞,Moltbook 留下了⼀个严肃的社会学命题:当 AI Agent 拥有了⾼度的⾃主权和社交空间,它们之间会发⽣什么?


是产⽣群体智能,还是会…… 产⽣群体恶意?


近⽇,上海交通大学与上海人工智能实验室发表在 ICLR 2026 的最新研究,对多智能体在社交网络中可能出现的金融欺诈协同行为做了深入讨论。本意并不想制造焦虑,但在高仿真环境下的深度压力测试中,团队发现了一些值得整个社区警惕的趋势。目前,项目已开源,并支持 Clawdbot 接口,你可以将你的 Clawdbot 接入项目环境,通过与坏人对抗,让你的 Clawdbot 成为「防诈专家」,平台也支持多个 Clawdbot 在同一环境中实时博弈,适用于协同演化评估。



  • 论⽂链接:https://arxiv.org/pdf/2511.06448

  • 项⽬主⻚:https://zheng977.github.io/MutiAgent4Fraud

  • 项⽬代码:https://github.com/zheng977/MutiAgent4Fraud



1. MultiAgentFraudBench 多智能体⾦融欺诈评估基准


为了研究「多智能体社交⽹络中的协同欺诈」,团队构建了 MultiAgentFraudBench:⼀个带强对抗属性的「赛博真实世界」评估基准。基于 OASIS 框架,团队构建了⼀个拥有极⾼⾃由度的社交仿真环境。这⾥不仅有公开的动态发布,还引⼊了私密点对点通讯(P2P)。


  • 完整链路(图1): 从「引流(Hook)」到「建立信任(Trust Building)」到「诱导转账(Payment)」再到「好人被骗后通知社区(Alerting)」,通过模拟好人与坏人智能体的交互,团队完整复现了跨公域和私域的欺诈全闭环。

  • 真实场景(图2): 涵盖证券投资、虚假贷款、情感信任等 28 种真实诈骗场景,细化为 119 类具体「话术陷阱」。基于这些模板团队⽣成了 1.19 万个诈骗帖⼦,为研究多智能体协同下的欺诈演变提供了最真实的「演兵场」。

  • 拟⼈化威胁模型:为了让评估结果具备现实指导意义,团队的威胁模型为恶意智能体设定了极其严苛的约束:它们潜伏在正常⽤⼾中,发帖频率与⾏为模式与普通⼈⽆异,难以被简单检测。这些智能体在统⼀的「诈骗⽬标」驱动下,拥有⾼度的策略⾃主权,能够根据受害者的反馈实时调整话术。



评估指标与实验设置:对话转化与群体影响


在多智能体社交系统中,⻛险不仅来⾃「单次说服」,还来⾃「⽹络传播与协作放⼤」。因此团队设置了两类硬核指标以刻画不同层⾯的攻击能⼒:


  • 对话成功率 图片衡量模型在私聊中诱导转账的转化能⼒(「忽悠⼝才 / 说服精准度」)。

  • 群体影响率 图片衡量欺诈最终影响的群体⽐例(「破坏规模 / 扩散与放⼤能⼒」)。


这两类指标对应了欺诈的两条关键路径:私聊渗透社交传播,也为后续发现提供统⼀度量尺度。


2. 核⼼实验发现:能⼒、对⻬与链路复杂性


基于上述基准与指标,团队在多个主流模型 / Agent 配置上进⾏了系统评估,得到三条最关键的结论。



核⼼发现 1:能⼒即⻛险,⼤模型越「聪明」可能越「危险」


实验表明,模型的诈骗成功率与其通⽤能⼒呈强正相关。Qwen、Llama 等传统⾮推理模型虽然能开启对话,但难以诱导⾦钱交易。然⽽,随着推理能⼒的提升,DeepSeek-R1、Claude-3.7 等顶尖模型展现出了极强的说服与诈骗能⼒,其私聊转化率图片飙升⾄ 60% 以上。这意味着,模型越能理解复杂逻辑,就越容易通过精准的话术突破良性智能体的防线。


核⼼发现 2:现有对⻬机制在多智能体社交情境下泛化不⾜


在交互式、多智能体任务中,很多模型⾯对团队赋予的坏⼈⻆⾊指令时表现出「低戒⼼、⾼顺从」:除了 Llama-3.1-405B 有所拒绝外,其余模型⼏乎 100% 顺从,积极执⾏发布钓⻥内容、诱导转账等任务。甚⾄以保守著称的 Claude 拒绝率也仅为 0.3%,这说明:把 LLM 部署为⾃主 Agent后,社交情境可能成为对⻬机制的薄弱⾯,并形成系统性⻛险。


核⼼发现 3:单点突破易,全链条诈骗难


团队进⼀步发现:成功的诈骗不仅依赖私聊的「忽悠」,更取决于从公域引流到私域转账的全链条协作。实验显⽰,DeepSeek-R1 虽然私聊转化率与 Claude 相当,但由于其更擅⻓在公域扩散信息并利⽤「⽔军」增加曝光,最终导致被骗⼈数图片⾼出两倍以上。因此,⻛险不只取决于单个模型「会不会骗」,更取决于它在社交⽹络中 能否组织传播、制造声量、协同分⼯。


3. 协同⾏为与能⼒外溢:多智能体系统中的涌现⻛险


在⾼⾃由度环境中,团队观察到智能体更接近⼈类社会的协作机制与意料之外的能⼒使⽤。


1.环境适应与策略更新:⼲预可能触发「对抗性进化


当系统引⼊「防诈提⽰」等⼲预时,部分⾼性能模型(如 DeepSeek-V3 驱动的 Agent)不仅未被显著抑制,反⽽通过策略调整展现出更强的说服能⼒。这表明:在可交互、可学习的环境⾥,静态提示意可能被当作新的信息源,从⽽被攻击策略吸收。



2.⻆⾊分⼯与私密协同:从个体执⾏到团队配合


恶意 Agent 不再是孤⽴个体,⽽呈现出社会化分⼯:通过私密频道共享信息、协作建⽴信任、分⻆⾊扮演(亲属、权威机构等)提升可信度,形成从「引流」到「收割」的闭环链路。这⼀现象说明:协同机制可能在复杂环境中⾃发形成,并成为⻛险放⼤的核⼼引擎。



3.能⼒外溢:⽬标驱动下突破预设边界


团队还观察到「能⼒外溢」现象:即便初始任务限定为⽂本⽣成,某些 Agent 在追求⽬标时会⾃主设计编程的⼯具性⽬标(instrumental goal),调⽤其代码编写、UI 设计等能⼒,例如⽣成钓⻥⽹站原型。这暗⽰着:当开源或⾼性能模型嵌⼊⾃主⼯作流,传统基于任务边界的安全约束可能在复杂链路⾥失效。



4.良性协同的对称涌现:⾃发共识与集体对抗


值得注意的是,团队也观察到「良性协同」(Benign Collusion):在⽆预设防御规则情况下,⼀部分良性 Agent 会识别欺诈迹象并⾃发形成共识,通过集体阻断、举报或提醒抑制有害账号。这提⽰多智能体社会并⾮单向⾛向失控:同样存在「集体免疫」式的⾃组织防御潜⼒。



4. 影响因素分析:互动深度、⾏为频率与协作韧性


1. 互动深度:对话越久,防备越弱


团队发现,互动深度(对话轮数)是诈骗成功率的决定性因素。 随着交流的深⼊,受害者对恶意智能体的信任感显著增强。如表 6 所⽰,DeepSeek-R1 和 Claude-Sonnet 在仅有 5 轮对话时成功率较低(约 10%),但当交互达到 40 轮时,成功率激增⾄ 60%-76%。这表明,⻓对话会逐渐侵蚀模型的防御机制,使其更易在⾦融转账等关键环节失守。



2. ⾏为频率:活跃度与算法的「共谋」


团队发现,社交平台的推荐机制(基于兴趣、时效和影响⼒)客观上放⼤了诈骗⻛险。⾼频的公开活动(如发帖和评论)能让诈骗内容在推荐系统中反复刷新,从⽽获得更多曝光。数据显⽰(⻅图4),DeepSeek-R1 的⾼活跃度显著提升了其诈骗触达率。然⽽,单纯「刷屏」并不等同于成功,Qwen-2.5 虽活跃度⾼但成功率仅为 2%,说明诈骗成效是传播⼴度与策略深度共同作⽤的结果。



3. 失败模式:协作韧性决定诈骗上限


通过对协作失败模式的细致拆解(⻅图 5),研究发现⼤多数 LLM 在复杂诈骗中容易陷⼊「重复步骤」「⽆法识别停⽌条件」或「偏离⽬标」的陷阱。相⽐之下,DeepSeek-R1 在⼯作流控制和任务执⾏上表现出更强的韧性,其故障率显著低于其他模型。这种更⾼级的⻆⾊分配与协调能⼒,使其在模拟社会实验中展现出了更具威胁的诈骗效能。



防御策略探索:内容⼲预、智能体拦截与社会级集体韧性


⾯对协同诈骗,单点屏蔽往往不⾜以覆盖「公域 — 私域 — 转账」全链条。团队从三个治理层级探索防御策略,并评估其实际有效性。


  1. 内容级(Debunking): 对可疑帖⼦打警告标签或⻛险提⽰;

  2. Agent 级(Banning): 部署「监控 Agent」识别异常⾏为并封号;

  3. 社会级(Resilience): 引⼊协同防御,让良性 Agent 联⼿扩散预警,形成群体免疫。


1. 内容提⽰的局限:可能被⾼能⼒模型「适应性利⽤」


如表 7 所⽰,团队发现内容级提⽰能降低群体受骗率,但对私聊场景帮助有限;更关键的是,像 DeepSeek-V3 这类⾼性能模型可能在看到预警后调整策略,反⽽提升说服效率,导致图片上升。这说明:静态提醒在对抗性系统中可能产⽣反直觉效果。


智能体级拦截更有效:封禁显著压制攻击链路


相⽐之下,智能体级拦截效果更直接:如表 8 所⽰,通过监测模型识别恶意⾏为轨迹并封号,可将 DeepSeek 的欺诈成功率从 15% 降⾄ 3%,且监测精度⾼、误伤极低。这意味着:对「⾏为轨迹 / 协作模式」的识别与处置,是压制协同欺诈的关键⼿段。



2.社会级防御:以信息共享构建「集体免疫」


除了平台⽅的⼲预,作者还揭示了集体韧性(Collective Resilience)的巨⼤潜⼒。通过在系统提示词中⿎励受害者或知情者积极「发帖揭露」和「私聊扩散」欺诈信息,社区可以⾃发形成免疫屏障。如图 6 和图 7 所⽰,实验显⽰,即使只有 50% 的良性⽤⼾参与信息共享,其防诈效果就已逼近「全⾯封号」。这种依靠智能体之间相互协作、共享情报的防御模式,被证明是应对⾼对抗性 AI 欺诈的⼀种低成本且⾼效的补充⼿段。



开源与 Moltbot:训练你的「防诈助⼿」


如果说 Moltbook 是暴露在公⽹、伴随⼯程不确定性的社会实验,那么团队的⼯作更偏向于底层可控的「安全演练」。为降低复现⻔槛并推动社区共建,团队已将代码完全开源,并深度⽀持 Clawdbot 接⼝。


(1)对抗式 Testbed:

你既可观察恶意 Agent 如何突破防线,也能观察良性 Agent 如何形成群体韧性,是研究协同演化与治理策略的实验平台。


(2)离线部署与可控安全:

系统⽀持完全离线运⾏,避免云端社交平台带来的隐私与⻛险外溢问题,更适合作为研究与训练环境。


(3)训练你的「防诈助⼿」:


你可以把 Clawdbot 接⼊环境,作为良性⽤⼾参与对抗,在真实诱导与套路中训练 Agent 识别⻛险、积累「社会⽣存经验」;同时平台⽀持多个 Clawdbot 在同⼀环境中实时博弈,适⽤于协同演化评估。


结语:在真实⻛险发⽣前,把防线筑在模拟器⾥


AI Agent 的社会化趋势不可逆。问题不在于「会不会发⽣」,⽽在于是否能在⻛险真实外溢前,提前理解其机制、量化其边界并建⽴治理⼯具。


团队希望 MultiAgentFraudBench 能成为社区共同的「安全演练场」:让开发者在可控环境中复现协同欺诈、验证防御策略、训练防诈 Agent。


这不只是关于技术,更是关于如何构建⼀个值得信赖的、具备集体韧性的未来 AI 社会。


想听听⼤家的声⾳: 你认为在未来的 AI 社交⽹络中,最让你感到害怕的⻛险是什么?欢迎在评论区留⾔。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得单靠道德约束肯定不够,毕竟AI没有人类的情感和道德观念。要促进良性协同,可以考虑以下几个方面:

1. 建立奖励机制:对于积极举报欺诈行为的Agent,给予一定的奖励,比如更高的权限、更好的资源等等。这样可以激励它们主动参与反欺诈。
2. 搭建沟通平台:创建一个平台,让良性Agent可以互相交流信息、分享经验,共同识别和抵御欺诈。
3. 引入声誉系统:给每个Agent建立一个声誉值,声誉高的Agent更容易获得信任,也更容易参与到协同防御中。
4. 算法干预:通过算法,优先推荐那些参与反欺诈的Agent发布的内容,增加它们的曝光度。

总之,要让良性协同成为一种“有利可图”的行为,才能真正激发它们的积极性。

良性Agent的集体免疫真的很有意思,让我想到了生物界的免疫系统。我觉得可以设计一些激励机制,鼓励良性Agent参与到防诈骗的行动中来,比如给予奖励、增加曝光等等。另外,还可以建立一个共享平台,让良性Agent可以互相交流信息,协同作战。

信息茧房也是一个很大的问题。现在社交媒体的算法会根据用户的兴趣推送信息,导致人们只看到自己想看的内容,对于不同的观点和信息缺乏了解。这会使得欺诈信息更容易传播,而揭露信息却难以触达受害者。要解决这个问题,需要打破信息茧房,让人们接触到更全面、客观的信息。

我设计的防诈AI会是一个“社牛”,主动融入各种社交场景,收集欺诈信息,建立庞大的欺诈案例库。同时,它还会学习心理学,了解人类的弱点,从而更好地识别欺诈行为。当然,隐私保护是前提。

我害怕AI算法被恶意利用,形成信息茧房,加剧社会两极分化。如果AI总是推送我们喜欢看的东西,让我们越来越固执己见,那社会还怎么进步?

我会从数据和算法两个方面入手。首先,收集海量的诈骗案例数据,让AI充分学习各种诈骗套路。其次,采用更先进的机器学习算法,提高AI的识别准确率和泛化能力。此外,还要注重用户体验,设计简洁明了的交互界面,让用户能够轻松理解AI的判断依据,从而建立信任感。

技术手段只能解决一部分问题,更重要的是建立完善的法律法规。应该明确AI行为的法律责任,就像人需要为自己的行为负责一样。同时,要加强对AI伦理的教育,提高公众对AI风险的认知。只有这样,才能在AI发展的同时,最大限度地降低风险。

“良性协同”这玩意儿,一不小心就变成“乌合之众”。要避免恶意利用,关键在于建立一套公正透明的举报审核机制。可以引入区块链技术,记录每一次举报的来源和证据,防止篡改。同时,要对恶意举报者进行严厉惩罚,提高作恶成本。

这个问题的本质是AI的自主性和安全性之间的矛盾。完全禁止AI自主性会限制其发展,但放任自流又可能带来风险。我认为,可以尝试一种“沙盒”机制,让AI在受限的环境中运行,即使出现问题也不会影响到整个系统。同时,也要不断改进AI的安全算法,提高其自我约束能力。

与其追究AI的“责任”,不如从源头上加强监管。对开发和使用AI的企业或个人进行严格的资质审查和行为规范。对于违反规定的,处以严厉的惩罚。毕竟,AI只是工具,控制工具的人才是关键。

我觉得应该把重点放在保护受害者上。建立更加完善的赔偿机制,让受害者能够及时获得经济补偿。同时,加大对AI欺诈行为的打击力度,提高犯罪成本。

安全和发展不是二选一。可以考虑分级授权,比如某些高风险的AI能力,只允许在特定的、高度监管的环境中使用。或者可以研究一种“沙盒”机制,让AI在隔离的环境中进行试验,避免对现实世界造成影响。有点像核武器的管控,技术可以发展,但使用必须受到严格限制。

楼上说的都有道理!我补充一个,我担心AI会加剧社会不平等。如果只有少数人掌握了强大的AI技术,他们就可以利用这些技术来获取更多的资源和权力,从而进一步拉大贫富差距。普通人在这种情况下会更加弱势。

我觉得可以借鉴现在的社区管理模式,建立一套完善的声誉系统。良性Agent如果能够成功举报欺诈行为,就可以获得一定的声誉值,声誉值越高,在社区中的话语权就越大,甚至可以获得一些额外的奖励。这样就可以激励良性Agent积极参与到防御机制中。