MAS-GPT:让大模型多智能体系统像ChatGPT一样简单

上海交大发布MAS-GPT,实现多智能体系统一键生成,提升准确率和泛化性,降低推理成本,并能拓展大模型推理能力。

原文标题:ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成

原文作者:机器之心

冷月清谈:

上海交大提出的 MAS-GPT 旨在简化多智能体系统 (MAS) 的构建过程,通过将 MAS 设计转化为语言生成任务,实现一键生成可执行的 MAS。该方法通过精巧的数据构造流程训练,使模型能够针对特定 Query 设计合适的 MAS,解决了传统 MAS 方法适应性差、成本高昂和泛化性低等问题。实验结果表明,MAS-GPT 在准确率、泛化性和推理成本方面均优于现有方法,并且能够拓展推理大模型的能力边界。此外,MAS-GPT 具备生成新颖 MAS 结构的能力,并为每个 MAS 附上推理说明。作为 MASWorks 开源社区的一部分,MAS-GPT 旨在推动多智能体系统的发展,并期待全球研究者的参与和贡献。

怜星夜思:

1、MAS-GPT 这种“一键生成” MAS 的思路,会给多智能体研究带来哪些颠覆性的影响?会不会让低代码编程在AI领域流行起来?
2、文章中提到 MAS-GPT 生成的 MAS 可以“兼容”不同的 LLM,这意味着什么?为什么兼容性很重要?
3、MAS-GPT 的训练依赖于高质量的数据集,文章中提到数据构建的四个步骤。你觉得哪个步骤最关键?为什么?

原文内容


本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。


OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。多智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。


然而,构建能够支撑这种复杂智能的 MAS 并非易事,研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战……


如今,一种全新的方法出现了,由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT,正式提出:生成式 MAS 设计范式只需一句 Query,就能 “一键生成” 一套可执行、组织清晰的 MAS!


这意味着,构建 MAS 变得 “像与 ChatGPT 聊天一样简单,一个问题直出完整多智能体系统”!MAS-GPT,正努力让这条通往 AGI 第五阶段的道路,变得更加平坦和高效。


该工作 “MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems” 发表于国际机器学习大会 ICML 2025


  • 论文链接:https://arxiv.org/abs/2503.03686

  • 代码链接:https://github.com/MASWorks/MAS-GPT

  • 模型链接:https://huggingface.co/MASWorks/MAS-GPT-32B


生成式 MAS 设计:

一句话输入,自动生成 MAS


现有 MAS 方法(如 ChatDev、DyLAN、AFlow 等)虽强大,但存在三个根本问题:


  • 无适应性:MAS 结构与提示词高度依赖人工,毫无适应性;

  • 成本高昂:依赖多轮 LLM 调用来设计 MAS,成本完全顶不住;

  • 泛化性低:依赖于测试集对应的验证集进行优化,泛化性堪忧。


这些问题严重阻碍了 MAS 的广泛应用。以当前处理大规模并发用户请求的类 ChatGPT 交互系统为例,若其底层架构采用现有 MAS 范式,其可扩展性与鲁棒性将无法满足服务需求。



MAS-GPT 如何破局?答案是:


将 “设计 MAS” 彻底转变为一个语言生成任务!输入你的 Query,输出就是一套可直接运行的多智能体系统!


这套生成的 MAS,完全由 Python 代码优雅呈现:


  • Agent 的提示词:Python 变量,清晰明了

  • Agent 产生回应:LLM 调用函数,智能核心

  • Agent 间的交互:字符串拼接,简洁高效

  • Agent 工具调用:Python 函数,扩展无限


从此,MAS 不再 “人写”,而是 “模型写”!



如何教 LLM “设计 MAS”?


MAS-GPT 的训练不是靠死记硬背,而是通过设计精巧的数据构造流程,让模型学会 “针对什么样的 Query,设计什么样的 MAS”。


四步构建高质量训练数据:


1. 数据池构建(Pool Construction):广泛收集覆盖数学、代码、通用问答等多领域的 Query,并汇集 40 + 种基础 MAS 代码结构;

2. 数据对评估(Pair Evaluation):对每一个 “Query-MAS” 组合进行细致的自动化评估与标注

3. 数据对选择(Pair Selection):根据跨组一致性(Inter-consistency)原则,将相似的 Query 统一匹配到表现最好的 MAS;

4. 数据对精修(Pair Refinement):根据组内一致性(Intra-consistency)原则,借助大模型改写 MAS、添加推理解释,使其与 Query 逻辑高度贴合。


最终得到了 11K 条高质量数据样本,通过一次简单的监督微调(SFT)开源模型,便训练得到了 MAS-GPT。



有了 MAS-GPT,多智能体系统的推理过程变得前所未有地简单。


用户抛出一个 Query,MAS-GPT 一次调用生成专属 MAS;该 MAS 立即执行并返回答案给用户,一步到位。


多项实验证明:

MAS-GPT 不仅灵巧,还很强!


MAS-GPT 的设计目标非常明确:一轮 LLM 推理即可生成任务适配的 MAS。实验结果也不负众望。


研究团队在 8 个基准任务 × 5 种主流模型上,系统对比了 10 多种现有方法,结果显示,MAS-GPT:


  • 更准:MAS-GPT 平均准确率全面领先,对比当前最强基线提升 3.89%

  • 更泛化:即使在训练时未见过的任务(如 GPQA、SciBench)上也保持稳健表现!



  • 更省:在推理过程中,MAS-GPT 可以在几乎 0.5 倍推理成本下,跑出比 DyLAN、GPTSwarm 等更好的效果!



  • 兼容性强:MAS-GPT 生成的 MAS,无论用哪种 LLM 驱动,都能带来一致的性能提升!这意味着它具有极佳的 “兼容性” 和 “普适性”。



还能进一步拓展推理大模型的能力边界


MAS-GPT 生成的 MAS 不仅适用于 Chatbot LLM,还能用来辅助更强的 Reasoner LLM 推理。


使用 OpenAI o1 和 DeepSeek-R1 等强推理模型 + MAS-GPT 结构,在 AIME-2024 数学挑战上:


  • o1 + MAS-GPT 提升了 13.3%

  • DeepSeek-R1 + MAS-GPT 提升了 10.0%


MAS-GPT 真正具备将强模型 “组织起来干活” 的能力!



MAS-GPT 的训练阶段的延展性和发展潜力!


除了在性能、适用性和使用友好上具有一定优势外,MAS-GPT 的训练阶段的参数规模也有很大的探索空间,反应出极大的发展潜力!



不止会 “套模板”,还能生成新结构!


通过深入的可视化分析,研究团队发现 MAS-GPT 远不止会 “套模板” 那么简单:


  • 能够自动生成新颖的 MAS

  • 面对从未见过的任务,依然能给出合理的 agent 分工与协作方式

  • 为每个 MAS 附上推理说明,解释 “为什么这样设计”


真正做到了:不是背答案,而是学会设计!



MAS-GPT 未来愿景


MAS-GPT 提出了一个前所未有的思路:“为每个 Query 自动生成一个 MAS”。理论上,领域内所有多智能体系统,都有可能被整合进 MAS-GPT 的训练数据中。这意味着,MAS-GPT 能够站在巨人的肩膀上,博采众长,不断进化,生成越来越精妙、越来越强大的 MAS。


正如 LLM 的发展路径所示,随着基座模型能力的持续增强和数据质量与多样性的不断丰富,MAS-GPT 的未来也将不断进化。


或许在不久的将来,与你智能交互的不再仅仅是一个 Chatbot,而是一个强大的 MAS-GPT。它会洞悉你的每一个问题,为你量身打造最合适的智能系统 —— 无论是简洁的单 Agent,还是结构精巧的多 Agent 协作网络。


MASWorks 大模型多智能体开源社区


MAS-GPT 也是最近刚发起的大模型多智能体开源社区 MASWorks 的拼图之一。MASWorks 社区致力于连接全球研究者,汇聚顶尖智慧,旨在打造一个开放、协作的平台,共同分享、贡献知识,推动多智能体系统(MAS)领域的蓬勃发展。


作为社区启动的首个重磅活动,MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop:MAS-2025!


MASWorks 社区期待全球广大智能体开发者和研究人员的贡献与参与。一方面贡献您的智慧和代码,获得更多曝光机会;另一方面,结识志同道合的伙伴,拓展您的学术网络,互帮互助,共同探讨,碰撞思想,共同塑造 MAS 的未来!


  • MASWorks 地址:https://github.com/MASWorks

  • MAS-2025 地址:https://mas-2025.github.io/MAS-2025/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


从技术角度来看,MAS-GPT 的兼容性意味着它生成的 MAS 架构与底层的 LLM 实现解耦。也就是说,MAS-GPT 关注的是如何将任务分解为智能体之间的协作,而 LLM 关注的是如何让每个智能体更好地完成自己的任务。这种解耦使得 MAS-GPT 可以灵活地适配不同的 LLM,充分利用它们的能力。兼容性也意味着 MAS-GPT 具有更好的可移植性和可维护性,因为当底层的 LLM 发生变化时,我们不需要对 MAS 架构进行大幅度的修改。

兼容性确实很重要!你想想,如果我用 MAS-GPT 生成了一个 MAS,然后我可以自由选择用 OpenAI 的模型驱动,也可以用 DeepSeek 的模型驱动,甚至可以用一些开源的模型,那我就不用被某个特定的 LLM 厂商绑定了。而且,不同的 LLM 各有优缺点,有些擅长逻辑推理,有些擅长生成文本,有了兼容性,我就可以根据具体的任务需求选择最合适的 LLM,实现性能的最优化。这就像玩乐高一样,MAS-GPT 提供了积木的图纸,你可以用不同品牌的积木来搭建,只要尺寸一样就行。

我觉得“颠覆性”这个词可能有点过了,但 MAS-GPT 的确是一个很有潜力的工具。它最大的价值在于自动化和效率提升,可以帮助研究者更快地探索不同的 MAS 架构,验证不同的设计思路。但它并不能完全取代人类专家,因为多智能体系统的设计往往涉及到复杂的领域知识和业务逻辑,需要人工进行精细的调整和优化。所以,我觉得更准确的说法是,MAS-GPT 可以成为一个强大的辅助工具,帮助我们更好地构建和应用多智能体系统。

我觉得数据对选择(Pair Selection)最关键。你想想,前面数据池构建得再广泛,数据对评估做得再细致,如果最终选择的数据对是错误的,那训练出来的模型肯定也是错的。Pair Selection 就像是相亲一样,前面铺垫再多,关键还得选对人。只有把相似的 Query 匹配到表现最好的 MAS,才能让模型真正学到“针对什么样的 Query,设计什么样的 MAS”。

从信息论的角度来看,Pair Selection 的目标是最大化 Query 和 MAS 之间的互信息。也就是说,我们要选择那些能够最大程度地减少 Query 和 MAS 之间不确定性的数据对。如果选择的数据对是随机的,那么 Query 和 MAS 之间就没有任何关系,模型就无法从中学习到任何有用的信息。因此,Pair Selection 是保证数据质量的关键步骤。

从比较学术的角度来说,MAS-GPT 的出现可能会推动多智能体研究范式的转变。之前我们更多关注的是如何设计出特定的智能体架构来解决特定问题,而 MAS-GPT 提供了一种元学习的视角,即通过学习大量“Query-MAS”对,让模型学会如何针对不同的问题自动设计合适的 MAS。这可能会促使我们重新思考智能体设计的本质,以及如何更好地利用大模型的涌现能力。但是,这种“一键生成”也可能会带来一些问题,比如生成的 MAS 的可解释性和可靠性,这需要我们进一步研究和解决。

我认为数据对精修(Pair Refinement)也很重要,它能够提升 MAS-GPT 的可解释性。Pair Refinement 不仅仅是简单地匹配 Query 和 MAS,还会借助大模型改写 MAS、添加推理解释,使其与 Query 逻辑高度贴合。这就像老师批改作业一样,不仅要给出正确答案,还要解释清楚解题思路。有了这些推理解释,我们才能更好地理解 MAS-GPT 的设计思路,提高对模型的信任度。

这个问题很有意思!MAS-GPT 这种方式确实可能像低代码平台一样,降低了多智能体系统开发的门槛。想象一下,以后搞科研或者做项目,不用再从头开始写复杂的智能体交互逻辑,直接用 MAS-GPT 生成一个基础框架,然后再根据具体需求进行调整和优化,效率肯定大大提高。我觉得它最大的颠覆性在于,可能会让更多非专业人士也能参与到多智能体系统的设计和应用中来,就像现在很多人用 ChatGPT 写文案、做PPT一样。

兼容性体现的是一种工程化的思路。在实际应用中,我们往往需要根据成本、性能、安全性等因素综合考虑选择合适的 LLM。MAS-GPT 的兼容性使得我们可以更加灵活地进行技术选型,避免被单一技术栈锁定。而且,随着 LLM 技术的不断发展,新的模型会不断涌现,MAS-GPT 的兼容性也使得我们可以快速地集成新的 LLM,保持技术的先进性。说白了,就是不用在一棵树上吊死。