LLM Agent Scaling 的瓶颈:信息冗余而非数量

研究揭示,多智能体系统扩展瓶颈在于信息冗余,而非Agent数量。多样性是关键,通过引入互补视角可有效提升系统性能。

原文标题:AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈

原文作者:机器之心

冷月清谈:

该研究表明,多智能体系统(MAS)并非 Agent 越多越强大,信息冗余才是限制其扩展的关键因素。同质化扩展收益迅速递减,而引入多样性可以有效延缓饱和,以更少的 Agent 获得更优异的性能。研究通过实验验证,增加 Agent 数量并不能持续注入有效信息,而模型多样性和 persona 多样性的结合能够显著提升系统性能。信息论分析框架进一步揭示,系统性能取决于有效信息通道的数量,而非 Agent 数量。因此,多智能体系统的扩展应着重于引入互补视角,降低输出冗余,追求与任务相关的推理多样性。

怜星夜思:

1、你认为在实际应用中,如何有效地评估和控制多智能体系统中的信息冗余?除了文中提到的方法,还有哪些可行的策略?
2、文章提到“有效信息通道”,你认为在构建多智能体系统时,如何设计才能最大化有效信息通道的数量?
3、文章结论对你有什么启发?你认为在实际应用中,应该如何避免盲目堆砌 Agent 数量,转而追求“有效信息”?

原文内容


近年来,基于大语言模型的多智能体系统(LLM-based Multi-Agent Systems, MAS)被广泛用于复杂推理任务。典型做法是让多个 agent 独立生成并通过投票或辩论等机制聚合决策,从而在算术推理、常识推断与专业问答中提升准确率。


随着 test-time compute(推理时计算)成为常见的能力提升手段,一个自然的问题随之出现:MAS 是否能通过不断增加 agent 数量而持续变强?直觉上,这个设想似乎成立:类似 ensemble 或 self-consistency 的「多次采样 + 聚合」往往能提高覆盖正确答案的概率。 


来自上海交通大学、UC Berkeley、加州理工学院以及约翰・霍普金斯大学的联合研究论文 Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明:多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。



  • 论文标题:Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 

  • 论文地址:https://arxiv.org/pdf/2602.03794 

  • GitHub 代码:https://github.com/SafeRL-Lab/Agent-Scaling


同质扩展的失效:

规模带来的收益迅速饱和


论文首先直接检验「增加 agent 数是否有效」。在同质设置下,所有 agent 共享相同底座模型与系统提示(无 persona 差异,配置一致),采用两类常见协作机制:

  • Vote:单轮独立生成后多数投票;

  • Debate:多轮交互后再给出最终答案(交互 4 轮)。


仅改变 agent 数 N,在 7 个基准任务(GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine)上评估。



结果在不同任务与模型上高度一致:当 N 从 1 增至 2 或 4 时,性能通常明显提升;但继续增加 N 后,准确率迅速进入平台期,边际收益接近 0,部分设置甚至出现回落。这说明:在同质配置下,单纯堆叠更多 agent calls 并不能持续注入新的有效信息。


多样性带来的对照现象:

少量异质 agent 胜过大规模同质系统


与同质扩展的快速饱和形成鲜明对比的是,多样性配置下的实验结果。论文进一步比较了两类系统:一类由同一模型多次独立运行构成,另一类则由不同 backbone 模型或不同 persona prompt 组成。在匹配计算预算(固定总 agent calls)的前提下,异质系统在同预算下整体更高,并且在更大的 N 上仍能保持增益。




为了更系统地理解这一现象,作者在实验中将多样性拆解为不同来源,包括 persona 多样性、模型多样性,以及二者结合的完全多样性,并在统一设置下进行对比。


在 GSM8K、ARC、HellaSwag、TruthfulQA 等七个基准任务上,作者系统比较了:

  •  Agent 完全一致(L1)

  •  Agent Persona 多样性(L2)

  •  Base Model 多样性(L3)

  •  Persona多样性兼Base Model多样性(L4)


结果显示,每引入一层新的多样性,系统整体性能都会显著上移;其中,模型多样性和 persona 多样性各自都具有独立贡献,而二者结合时效果最为显著。



这一趋势在效率层面体现得尤为明显:在多个任务上,仅使用 2 个完全异质的 agent,就可以达到甚至超过 16 个同质 agent 的平均性能。



限制多智能体扩展的不是规模

而是信息冗余


将这些实验结果串联起来,论文在经验层面得出了一个清晰结论:多智能体系统的扩展瓶颈并不来自 agent 数量不足,而来自 agent 输出之间的高度相关性。在同质配置下,多个 agent 往往沿着相似的推理路径生成答案,新增调用所带来的大多是重复信息;而多样性的作用,在于引入互补视角,降低输出冗余,使系统能够在相同甚至更小的计算预算下获得更多有效证据。




基于这一系列实验现象,作者进一步提出信息论分析框架,引入「有效信息通道」等概念,对「规模失效」与「多样性优势」给出统一解释。与其说这项工作提出了新的 agent 架构,不如说它明确指出:多智能体系统里真正稀缺的资源不是调用次数,而是非冗余的信息来源


信息论视角:

性能由「有效信息」而非「调用次数」主导


作者考虑一个包含 N 个大模型智能体的多智能体系统,每个智能体具有自身配置,包括基座模型(backbone model)、系统提示词(system prompt)、角色设定(persona)与工具能力(tool access)。系统接收问题输入 X,按预设工作流执行若干次推理(记为 n 次),最终输出答案。



从信息论角度,得到正确答案 Y 的成功率并不简单由 N 与 n 决定,而取决于系统能够提供多少关于 Y 的信息。作者用条件熵 H (Y|X) 刻画任务的内在难度:在给定问题 X 的情况下,正确答案 Y 仍然存在的剩余不确定性。

  • 同质配置下,即便新增智能体,往往也只是在相似推理路径下重复采样,因而对降低不确定性帮助有限;

  • 异质配置下,新增智能体更可能引入新的推理路径,与既有路径互补,从而更有效地减少不确定性。


为刻画这一差异,作者定义:

  • 有效信息通道数 K:系统中真正不冗余的、彼此独立 / 互补的有效信息源数量(effective channels)。

  • 互补率(complementarity rate)图片:每增加一个有效通道后,对尚未获得的任务相关证据的覆盖比例


在该设定下,作者基于若干建模假设推导出一个近似形式,用于刻画趋势而非精确预测。作者认为,系统可获得的有效信息量(并据此关联成功率)主要受如下量支配:


图片


该结果强调:影响系统性能的关键不在于 “智能体数量或推理次数”,而在于系统中有效信息通道的数量 —— 也就是多样化所带来的非冗余信息规模。它也解释了为何实践中常见「边际效益递减」:当有效信息通道增长受限时,新增调用带来的有效信息增量会快速衰减。


作者还给出了在实践中估计有效信息通道 K 的方法,并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等数据集上验证:经验成功率与理论预测总体吻合。



进一步地,作者将系统输出拆分为「正确推理路径」与「错误推理路径」,分别估算其对应的有效信息通道数量。实验一致表明:当正确推理路径对应的有效信息通道更多时,多智能体系统表现更好。这意味着系统设计不应盲目追求多样性本身,而应追求与任务相关的推理多样性 —— 即提升与正确推理相关的有效信息通道数。



总结


论文的核心经验结论是:多智能体扩展的关键不在于把 N 做大,而在于让新增调用带来新的有效证据。只要输出高度相关,同质扩展就会很快进入平台期;而多样性能够提升效率,是因为它更可能产生互补推理路径。换句话说,多智能体系统里稀缺的不是调用次数,而是非冗余信息。


实践上可以用一个简单标准指导扩展:当增加 agent 主要带来「同一思路的重复」 时,应停止堆同质数量,转而引入可控的异质性(方法互补的 persona、不同模型家族、工具能力互补);只有当这些改动确实带来额外增益时,再继续扩大规模。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

构建多样性多智能体系统是个好问题!除了persona和模型多样性,我觉得还可以从以下几个角度入手:

1. 目标多样性: 让不同的 agent 拥有不同的目标函数或奖励函数。例如,一个 agent 专注于提高准确率,另一个 agent 专注于降低时间复杂度。
2. 工具多样性: 为不同的 agent 提供不同的工具或 API 访问权限。例如,一个 agent 可以使用搜索引擎,另一个 agent 可以访问数据库。
3. 知识多样性: 让不同的 agent 拥有不同的先验知识或背景知识。例如,一个 agent 是医学专家,另一个 agent 是法律专家。
4. 思维链多样性: 这个很重要,可以尝试让一部分agent使用演绎法,另外一部分使用归纳法。

关键在于,要根据具体的任务特点,选择合适的多样性来源,并设计合理的协作机制,才能充分发挥多智能体系统的优势。

啊,这个问题让我想起了信号处理里的奈奎斯特采样定理!如果把每个 Agent 看作一个信号源,那么“有效信息通道”就类似于信号的带宽。如果Agent们产生的信号高度相关(也就是信号很“窄”),那么即使数量再多,也无法恢复出原始信号的全部信息。

所以,量化“有效信息通道”的关键在于衡量 Agent 之间的“独立性”或者“互补性”。这方面可能需要用到一些高级的统计方法,比如主成分分析(PCA)或者独立成分分析(ICA),来提取 Agent 输出中的主要成分,然后计算这些成分之间的相关性。

当然,这只是我一个粗浅的理解,欢迎大佬们指正!

别把事情搞得太复杂,我觉得可以先用简单的文本去重方法试试水,比如SimHash或者MinHash。如果去重率很高,那说明冗余确实严重。当然,这种方法比较粗糙,但胜在简单快速,可以作为一个初步的判断。

别忘了数据的重要性!可以通过构建高质量的训练数据集,例如包含正确推理路径的标注数据,来训练agent。这样agent就能从数据中学习到正确的推理模式,从而提高性能。当然,数据的质量是关键,需要仔细筛选和清洗。

平衡的关键在于监控和调整。可以先引入一定程度的多样性,然后通过实验或者在线评估,观察系统的性能表现。如果发现多样性过度导致性能下降,就应该适当减少多样性,反之亦然。这是一个动态调整的过程。

这个问题很有意思!我的想法是,可以通过强化学习的方式,给那些早期输出结果与最终正确答案更接近的Agent更高的奖励,引导它们以后更多地采取类似的推理策略。这其实就是一种“优胜劣汰”的机制。

这个平衡点确实很难把握。我的理解是,多样性应该服务于最终的目标。也就是说,我们应该追求与任务相关的多样性,而不是为了多样性而多样性。比如,在解决数学问题时,可以引入擅长代数和几何的不同agent,但要确保它们最终能够得出一致的答案。

我不太同意楼上的观点,prompt当然有用,但是prompt需要足够“狠”。举个例子,如果让agent扮演不同领域的专家——比如一个是物理学家,一个是社会学家,让他们用各自的知识体系来分析同一个问题,这样prompt带来的差异就会非常明显。关键在于prompt的差异要足够大,大到能影响agent的思考模式,而不是仅仅停留在语言表达上。

选模型也得讲究策略。参数量当然是一个考虑因素,但更重要的是模型之间的差异性。参数量差距大的模型,能力可能也有明显差异,互补性更强。不同架构的模型,比如Transformer和RNN,擅长的任务也不同,组合起来效果更好。我觉得可以先根据任务特性选择几个候选模型,然后通过实验来验证它们的互补性。

这个问题很有意思!单改prompt,效果可能不如预期。Prompt的“多样性”也分深浅,只是换汤不换药,agent还是会沿着差不多的思路走。要我说,得从agent的“世界观”入手,prompt里得包含不同的知识背景、思考方式,甚至价值观。这样才能让agent真正从不同角度分析问题,避免一窝蜂扎堆。

好问题!感觉Agent之间的互补性设计确实是个难点。个人觉得可以从以下几个方面入手:

1. 知识领域互补:确保不同的Agent拥有不同的专业知识或技能,比如一个擅长数学,一个擅长逻辑推理,这样面对复杂问题时可以互相补充。
2. 推理方式互补:有些Agent擅长归纳,有些擅长演绎,有些擅长类比,混合使用可以避免单一思维模式的局限性。
3. 数据来源互补:让Agent访问不同的数据库或信息源,这样可以获取更全面的信息,减少偏差。
4. Prompt设计互补:使用不同的Prompt引导Agent,鼓励它们从不同的角度思考问题。

评估互补性方面,可以尝试以下方法:

* 实验评估:设计一些测试用例,观察不同Agent组合的性能表现,找出最佳搭配。
* 信息论分析:借鉴文章提到的信息论框架,分析Agent输出之间的冗余度和互补性。
* 专家评估:请领域专家评估不同Agent的知识和技能,判断它们是否具有互补性。

总之,Agent互补性设计是一个持续迭代的过程,需要不断尝试和优化。

理论上,是不是可以借鉴集成学习的思想,设计一种机制,让Agent在生成信息时,尽量选择与其他Agent不同的路径?比如,对已经出现过的信息进行惩罚,引导Agent探索新的可能性。

从信息论的角度,可以尝试计算不同Agent输出信息之间的互信息。互信息越低,说明Agent之间的信息冗余越少,多样性可能就越高。但具体操作起来可能比较复杂。

我觉得可以从agent的行为模式入手,例如观察agent之间的交互频率、信息传递量等。如果agent之间的交互很少,或者传递的信息量很小,可能说明它们之间的独立性很高,有效信息通道就比较多。此外,我认为还可以通过分析agent的决策过程,例如观察它们是否采用了不同的推理路径、是否考虑了不同的因素等,来评估有效信息通道的数量。

从计算资源的角度来看,增加同质agent意味着需要更多的计算资源。如果资源有限,可能会导致每个agent的推理能力下降,反而得不偿失。另外,我觉得还可能存在“噪音”问题,过多的agent引入了过多的噪声信息,干扰了最终决策。

我觉得可以考虑引入工具的多样性,不同的agent可以使用不同的工具,例如搜索引擎、数据库、计算器等,这样可以让agent们从不同的角度来解决问题,提高解决问题的能力。或者说直接引入专家agent,比如一个精通数学,一个擅长语文,岂不是直接起飞?

谢邀,人在实验室,刚跑完实验。

我觉得除了信息冗余,还有一个重要的原因是**“认知闭合”**。当所有agent都使用相同的模型和prompt时,它们的思考方式会趋同,容易陷入某种固定的思维模式,从而忽略了其他可能的解决方案。这就像一个团队里的人都来自同一背景,缺乏不同的视角,创造力就会受到限制。而且,我怀疑当大量agent使用同一种prompt,是不是也会给LLM带来prompt污染?

最大化有效信息通道,我的理解是让每个agent尽可能提供独特的视角和信息。 具体来说,可以从以下几个方面入手:1) 多样化的模型选择:使用不同架构、不同训练数据的模型,避免同质化。 2) 个性化的Prompt设计:为每个agent设计独特的persona和prompt,引导它们从不同的角度思考问题。 3) 差异化的工具配备:为agent配备不同的工具和知识库,让它们拥有不同的能力。 4) 协作机制的优化:设计合理的协作机制,鼓励agent之间进行有效的沟通和信息交流,避免重复劳动。