清华&无问芯穹发布WideSeek-R1:多智能体系统探索大模型广度扩展新路径

清华&无问芯穹发布WideSeek-R1多智能体系统,探索AI“广度扩展”,4B模型性能比肩671B模型,为信息搜索带来新思路。

原文标题:不止Deep,更要Wide:清华、无问芯穹发布多智能体系统WideSeek-R1,4B模型比肩671B模型!

原文作者:机器之心

冷月清谈:

清华大学与无问芯穹的RLinf团队提出了“广度扩展”的概念,发布了多智能体系统WideSeek-R1。该系统采用分层多智能体框架,通过多智能体强化学习进行端到端训练,实现了灵活的规模化调度和高效的并发处理能力。实验结果表明,4B参数的WideSeek-R1在广度搜索任务上的表现与671B参数的DeepSeek-R1单智能体相当,并显著超过了同参数规模的基线模型。WideSeek-R1的核心在于使用多智能体系统+MARL实现广度扩展,通过Lead-agent-Subagent的层级框架,将复杂问题分解为子任务并并行执行。同时,研究团队还构建了高质量的广度信息搜索任务训练数据,并对RLinf多智能体强化学习训练架构进行了扩展,以应对多智能体带来的系统挑战。实验结果验证了广度扩展在提升信息搜索效率方面的潜力,并强调了算法创新与系统支撑的重要性。

怜星夜思:

1、WideSeek-R1提出的“广度扩展”与以往的“深度扩展”相比,有哪些优势和局限性?在实际应用中,我们应该如何选择或结合这两种策略?
2、WideSeek-R1采用MARL进行端到端训练,解决了多智能体协作中的哪些难题?这种训练方式对多智能体系统的性能提升有多大帮助?未来MARL在多智能体系统中的应用前景如何?
3、WideSeek-R1的数据构建流水线如何弥补开源社区在广度信息搜索任务上的空白?这种自动化数据构建方式有哪些优势和挑战?未来我们应该如何构建更有效、更通用的训练数据?

原文内容


DeepSeek-R1 的成功证明了「深度扩展(Depth Scaling)」在解决复杂逻辑推理上的巨大潜力。AI 社区开始思考另一个维度的可能性:当任务不仅需要深度的推理,更需要极宽广度的信息搜集时,单一的大模型还是最优解吗?


设想这样一个场景:你需要整理 “2025 年全球前 50 大科技公司的营收、净利润及研发投入对比表”。这是一个典型的广度信息搜索任务。对于单个大模型而言,哪怕它是拥有 671B 参数的超大模型,面对这种需要数十次检索,往往会陷入上下文信息干扰和串行效率低的问题,而显得力不从心。


近日,来清华大学与无问芯穹的 RLinf 团队提出了一种全新的互补维度 ——「广度扩展(Width Scaling)」,并以此发布了多智能体系统 WideSeek-R1 。不同于以往依赖人工设计工作流的多智能体系统,该工作采用了一种 「Lead-agent-Subagent」的分层多智能体框架 ,并通过多智能体强化学习(MARL)进行端到端训练,展现出灵活的规模化调度高效的并发处理能力。


实验结果显示,4B 参数的 WideSeek-R1 在广度搜索任务上的表现达到了40%的 Item F1指标,不仅看齐 671B 参数的 DeepSeek-R1 单智能体,更大幅超越了同参数规模的基线模型。



  • 论文标题:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

  • 论文链接:https://arxiv.org/abs/2602.04634

  • 项目主页:https://wideseek-r1.github.io

  • 代码文档:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html

  • Hugging Face 模型和数据:https://huggingface.co/collections/RLinf/wideseek-r1


 1. 只有「深度」还不够,

搜索需要「广度」


过去一年,大模型的进步主要集中在深度扩展上。像 OpenAI o1 或 DeepSeek-R1 这样的模型,通过增加推理步数来解决复杂难题。


然而,随着任务广度的增加,瓶颈从 “个体能力” 转移到了 “组织能力”。


在广度信息搜索任务中,单智能体面临两大痛点:


1. 上下文干扰: 随着检索信息的堆积,无关信息会干扰模型对后续子任务的判断。

2. 串行效率 依次处理数十个独立的子任务不仅慢,而且容易因序列过长而遗忘有用信息,导致任务失败。


对此,WideSeek-R1 给出的答案是:用多智能体系统 + MARL 实现广度扩展。


图1:深度扩展与广度扩展的对比


当传统的深度扩展(蓝色曲线)依赖单智能体多轮串行推理而逐渐遭遇性能瓶颈时,广度扩展(粉色曲线)通过增加智能体个数,通过多智能体并行执行开辟了新的增长路径;而我们提出的 WideSeek-R1(红色星号),通过多智能体强化学习(MARL)进一步实现了调度与执行的协同优化,证明了在广度信息搜索任务中,协同的 “宽度” 扩展能带来比 “深度” 更显著的性能飞跃。


 2. WideSeek-R1:采用端到端 MARL 

训练 “编排” 和 “执行” 能力


现有的多智能体系统大多依赖手动设计的工作流(Hand-crafted workflows)或简单的轮流对话,难以实现真正的并行高效协作。


WideSeek-R1 引入了一个「Lead-agent-Subagent」的层级框架,并用多智能体强化学习(MARL)端到端训练


  • Lead-agent: 负责将一个宽泛的复杂问题分解为独立的子任务,可调度多个 Subagents 并行执行。同时也需要对 Subagent 返回的结果进行总结归纳,判断应该直接返回最终答案,还是进行下一回合的任务分解。


  • Subagent: 在隔离的上下文中并行工作,利用搜索和浏览等工具获取特定信息。


为了训练这个系统,研究团队在 GRPO 算法基础上,针对多智能体、多回合场景进行了两项关键改进:


  • 多智能体优势分配(Multi-Agent Advantage Assignment): 多智能体协作中,最大的难题是 “功劳归谁”。WideSeek-R1 将同一个样本的最终奖励共享给所有参与的 Agent,确立 “荣辱与共” 的协作目标,避免复杂的信用分配导致的 Reward Hacking 。


  • 优势双重加权归一(Dual-Level Advantage Reweighting):

    • Token 级加权归一: 类似于 DAPO,确保长思维链的 Turn 在某一智能体里获得足够高的权重;

    • Agent 级加权归一: 确保增加 Agent 数量是为了真正提高质量,而非仅仅为了 “凑人头”。


图2:WideSeek-R1 推理与训练流程概述


 3. 构造广度信息搜索任务训练数据:

弥补开源社区领域空白


当前开源数据集通常关注深度搜索任务,尽管已有一些广度搜索训练集,但是数据量较小,无法满足大规模 RL 训练。研究团队填补了社区空白,开发了一套全自动的数据构建流水线,基于 HybridQA 数据集,合成了 20,000 条高质量的广度信息搜索任务


这一流水线包含三个阶段 :


1. 问题生成: 提取用户意图并转化为具有特定约束的广度信息搜索问题;


2. 答案生成: 利用 Gemini-3-Pro 独立生成两个答案及唯一标识列;


3. QA 对过滤: 通过对两个答案的一致性校验和难度过滤,得到最终高质量数据集。


图3: 三阶段自动化数据构建流程概述


 4. 实验结果


 (1) 多智能体 4B 模型在 WideSearch 上追平单智能体 671B 模型


表1: WideSearch 主实验结果


研究团队在公开的广度信息搜索测评任务 WideSearch 上,对现有单智能体、多智能体 baseline 进行测试,实验数据显示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分数


  • 相比未训练的 Qwen3-4B 多智能体基线提升了 8.8% 。

  • 相比同参数的单智能体版本 SingleSeek-R1-4B 提升了 11.9% 。

  • 最重要的是,这一成绩与单智能体 DeepSeek-R1-671B 几乎持平,而参数量仅为后者的 1/170 。


 (2) 验证「广度扩展」定律


图4: 面向测试时计算资源的深度与广度扩展性能对比


文章最核心的发现之一在于 Scaling 行为的对比:


  • 深度扩展(Depth Scaling): 随着推理步数增加,单智能体性能很快饱和,甚至因上下文过长而下降。

  • 广度扩展(Width Scaling): 在单智能体性能饱和情况下,增加并行 Subagent 的数量(从 1 到 10)展现了持续的性能增长潜力。在此基础上,MARL 训练通过优化协作机制,进一步显著提升了系统的性能上限。


 (3) 在标准 QA 上保持性能


表2: 在传统单跳与多跳QA任务上的实验结果


在 NQ、HotpotQA 等 7 个标准问答数据集上,WideSeek-R1-4B 同样表现出色,平均分达到 59.0%,优于部分 7B/8B 的多智能体基线(如 AgentFlow, OWL 等),证明了模型并未因专注于广度搜索而牺牲通用搜索能力。


 (4) 消融实验


图5: 智能体模型的消融实验(左图),训练数据的消融实验(右图)


左图:我们发现只有当 Lead-agent 和 Subagent 同时使用 WideSeek-R1-4B 时才能达到最佳性能,这验证了端到端多智能体强化学习训练的重要性。


右图:在相同数据集规模的前提下,在混合数据集(广度 + 深度)上训练的模型表现始终优于仅在单一类型数据集上训练的模型,表明广度数据与深度数据提供了互补的增益。


5. 算法背后的工程哲学:

RLinf 的关键支撑


图6: RLinf 多智能体强化学习训练架构图


WideSeek-R1 传达的核心结论是:在广度信息搜索场景里, Width Scaling + MARL 确实能带来进一步收益。这一结论除了需要“算法层面”的创新,更需要“系统层面”的强力支撑。例如:多智能体的调度、多工具的统一接入与管理、多会话的调度与隔离、动态会话与长尾问题的缓解,以及训练与推理间的高效切换与资源分配等。


为应对上述系统挑战,团队将自研单智能体强化学习框架 RLinf 进一步扩展至多智能体强化学习场景。系统结构如图6所示,包含三个粒度:MARL 逻辑流、 Agent  工作流、以及工具库、推理库、训练库等服务化组件。 MARL 逻辑流包含 Rollout 、训练与权重同步,由 RLinf Runner 实现。相较单智能体,多智能体强化学习的复杂逻辑主要体现在 Rollout 部分, RLinf 新增 AgentLoop 模块负责执行多智能体核心推理逻辑,即各智能体基于大模型进行交替的推理与工具调用。最细粒度的服务组件均继承自 RLinf Worker ,从而可以灵活调用 RLinf 提供的通信接口,极大降低了开发复杂度。在多智能体场景中,如 lead-agent 与多个 Subagent ,可通过多个 SGLang 实例进行推理,仅需简单配置即可拉起整套多组件交互流程。


在训练效率方面,框架引入了多项优化:


  • 样本打包(Sample Packing):将不同长度的样本动态打包,使训练 token 更集中于有效计算,减少 padding 开销,提升 GPU 利用率;在长序列、多轮 Agent 轨迹训练中,可显著减少无效算力消耗并缩短单步时间。

  • 多轮前缀合并(Multi-Turn Prefix Merging):针对 Agent 多轮生成中后一轮 prompt 包含前一轮 prompt 与响应的结构特点,RLinf 可合并可复用前缀,避免重复前向与反向计算,在多轮工具调用场景中尤为有效。

  • 面向Session的亲和性请求分发:在通信层实现基于亲和性的请求分发,保障多会话的合理调度。

  • 高效权重同步:支持训练并行配置到推理并行配置的就地转换,结合 NCCL / CUDAIPC 高带宽同步路径,降低频繁同步的开销,同时减少冗余权重拼接与中间态内存占用,缓解同步阶段的性能瓶颈与 OOM 风险。

  • 组件自动扩缩容:支持各组件的自动扩缩容,有效应对动态性与长尾问题。


系统性能效果:WideSeek-R1通过广度拓展有效拓展信息获取的范围,而广度的拓展是通过更多的并行subagents完成的。从下图实验数据可见,通过高效的系统实现与并发优化,拓展一倍的subagents的数量并没有带来明显的eval时间的增加,充分说明系统在scaling上的有效性。


图7: Agent scaling性能对比


 6. 结语


WideSeek-R1 表明搜索不仅要Deep,还要Wide,同时也表明新一代科研的形态需要“算法创新 + 系统支撑”双管齐下。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

WideSeek-R1团队搭建了一套全自动的数据构建流水线,能合成高质量的广度信息搜索任务数据。这种做法最大的意义在于解决了多智能体研究中数据匮乏的问题。以前做多智能体,往往找不到合适的训练数据,要么是数据量太小,要么是质量不高,现在有了这个流水线,就可以源源不断地生成数据,大大加速了研究进程。

话说回来,这种自动化数据构建的方式会不会引入一些偏差呢?毕竟数据是机器生成的,可能不够真实、不够多样化。

这个问题很有意思!我觉得“广度扩展”在需要并行处理大量信息,且各信息间关联度不高的场景下会更有优势。比如,除了文章里提到的信息搜索,像舆情监控、金融风控这种需要同时分析海量数据并快速做出决策的场景,多智能体并行处理应该会比单智能体串行推理更高效。

另外,我想到一个比较脑洞的应用:游戏里的NPC。传统的NPC行为模式比较固定,如果用多智能体模拟不同性格、背景的NPC,让它们并行地与玩家互动,是不是能创造出更真实、更丰富的游戏体验?

文章里提到 WideSeek-R1 将同一个样本的最终奖励共享给所有参与的 Agent,确立 “荣辱与共” 的协作目标。这种做法简单粗暴,避免了复杂的信用分配,但感觉也可能会造成“搭便车”的问题,有些Agent可能啥也没干,也能分到奖励。不知道有没有更好的方法来解决这个问题?

谢邀,抛砖引玉一下~ 感觉广度扩展有点像“群狼战术”,在面对信息量大、关联性弱的问题时,能够通过并行处理提高效率。但如果问题本身需要深入的逻辑推理,或者各个信息点之间联系紧密,那可能还是深度扩展更适合。

至于应用领域,我觉得知识图谱构建挺有潜力的。传统的知识图谱构建需要人工梳理大量资料,费时费力。如果用多智能体并行地从不同来源抽取信息、验证关系,效率应该能提升不少。

WideSeek-R1的数据构建流水线确实是一个亮点。它通过自动化方式生成大量训练数据,解决了多智能体研究中数据稀缺的难题。这种方式的意义在于:

* 降低了数据获取成本:无需人工标注,大大节省了时间和人力。
* 提高了数据规模:可以生成大规模数据集,满足深度学习模型的训练需求。
* 促进了领域发展:为其他研究者提供了可参考的数据构建方法。

当然,自动化数据构建也存在一些潜在风险,例如数据质量难以保证、可能引入偏差等。因此,在实际应用中需要 careful monitoring。

个人理解,广度扩展的优势在于其并行处理能力,尤其是在面对大量需要独立检索和分析的信息时。这意味着在需要快速整合多个来源信息的任务中,它可能会超越深度扩展。

除了信息搜集,我认为广度扩展在以下领域也可能有应用:

* 供应链管理:同时监控多个供应商的状态,快速识别潜在的风险和机会。
* 智能交通:协调多个车辆和交通信号灯,优化交通流量。
* 分布式计算:将一个大型计算任务分解为多个子任务,分配给不同的计算节点并行处理。

这种“荣辱与共”的策略,有点像团队项目里的“大锅饭”,好处是简单易操作,大家目标一致;坏处是可能会埋没真正有贡献的Agent,或者让一些Agent偷懒。

我觉得更理想的方案是引入某种“贡献度”评估机制,比如根据Agent提供的信息的数量、质量等,来动态调整奖励分配。但这又涉及到如何公平、客观地评估贡献度的问题,感觉是个很复杂的课题。

个人感觉,WideSeek-R1的数据构建pipeline最大的价值是提供了一种可复制、可扩展的数据生成方法。以前做AI研究,数据往往是瓶颈,特别是多智能体这种需要大量交互数据的领域。现在有了这个pipeline,就可以根据需要定制化生成数据,大大提高了研究效率。

不过,我也担心这种自动化生成的数据会不会太“同质化”,缺乏真实世界的多样性。这可能需要研究者在后续工作中进行校正和优化。

WideSeek-R1采用的“最终奖励共享”策略,优点在于简化了训练过程,避免了复杂的信用分配问题,使得智能体更容易学习协作。但是,这种策略的缺点也很明显,就是可能会导致“责任分散”,降低智能体的学习积极性。

更精细化的方法是尝试对每个Agent的贡献进行评估,例如,可以根据Agent提供的信息的质量、对最终结果的影响程度等指标,来分配不同的奖励。但这种方法的难点在于如何设计合理的评估指标,以及如何避免Agent为了追求更高的奖励而采取不当行为。

这个问题很有意思!“深度扩展”就像是培养一个超级专家,让他/她对某个领域理解得非常深刻,擅长解决复杂的问题;而“广度扩展”则像是组建一个团队,每个人负责不同的领域,通过协作来完成任务。深度扩展的优势在于能够进行更深入的推理和决策,劣势在于处理需要大量信息输入的任务时可能会遇到瓶颈。广度扩展的优势在于能够快速获取和整合多方面的信息,劣势在于各个智能体之间的协调和信息整合可能存在问题。实际应用中,可以根据任务的特点来选择。如果任务需要深入的专业知识和复杂的推理,那么深度扩展可能更适合;如果任务需要广泛的信息搜集和整合,那么广度扩展可能更适合。当然,也可以将两者结合起来,例如让一个深度扩展的智能体作为领导者,协调多个广度扩展的智能体,从而实现更高效的任务完成。

自动化数据生成就像是 AI 自己给自己出题做,一不小心就变成“自己抄自己的答案”。 潜在的问题包括:1. 缺乏创造性:AI 很难生成一些真正新颖和有挑战性的问题。2. 容易作弊:AI 可以直接从训练数据中复制答案,而不是真正理解问题。3. 质量难保证:AI 生成的数据可能包含错误或不准确的信息。为了解决这些问题,需要:1. 引入外部知识:让 AI 学习更多的外部知识,例如使用知识图谱、搜索引擎等。2. 鼓励多样性:鼓励 AI 生成不同类型的问题,例如使用不同的生成模型、不同的prompt等。3. 加强评估:对 AI 生成的数据进行严格的评估,例如使用人工评估、自动评估等。

从理论上讲,Subagent 的数量应该根据任务的复杂度和资源的可用性来动态调整。在资源充足的情况下,可以考虑使用更多的 Subagent 来并行处理任务,以提高效率。然而,随着 Subagent 数量的增加,系统复杂性也会增加,协调和通信成本也会上升。因此,需要仔细评估增加 Subagent 带来的收益和成本。

一种可能的解决方案是采用自适应 Subagent 调度机制,根据任务的实时需求动态调整 Subagent 的数量。例如,在任务初期可以使用较少的 Subagent 进行初步搜索,然后根据搜索结果的质量和覆盖范围,动态增加或减少 Subagent 的数量。

从学术的角度看,'深度扩展’侧重于增强模型内部的知识表示和推理能力,而’广度扩展’则更侧重于利用外部资源和并行计算。因此,在需要快速整合大量分散信息的场景下,例如金融风险评估或供应链管理,WideSeek-R1 的方法可能更有效。然而,对于那些依赖于复杂算法或需要高度专业知识的任务,例如新药发现或高精度图像识别,深度模型可能仍然是首选。

同时,广度扩展也面临一些挑战,比如智能体之间的协调和信息融合,以及如何避免信息冗余和冲突。这些都是未来研究需要关注的问题。

其实吧,我觉得这个东西很有意思的点在于,它揭示了一种解决问题的思路,从依赖单一智能体的深度推理到利用多智能体的并行协作。这种思路不仅仅局限于信息搜索,像复杂系统控制、智能制造等等领域都有可能借鉴。不过,具体应用的时候,还需要深入分析每个领域的特点,进行定制化的设计,才能真正发挥广度扩展的优势。

从学术角度来说,MARL 提供了一种更优雅的解决方案。它将多智能体系统的设计问题转化为一个学习问题,避免了繁琐的手动设计过程。但这并不意味着 MARL 可以完全取代手动设计。在实际应用中,往往需要将两者结合起来,利用手动设计来指导 MARL 的学习过程,提高训练效率和效果。有点像fine-tuning的感觉。

WideSeek-R1通过将同一个样本的最终奖励共享给所有参与的 Agent,确立“荣辱与共”的协作目标,避免复杂的信用分配导致的 Reward Hacking。这种做法简化了奖励机制,降低了训练难度。这种思路的借鉴意义在于,对于复杂的多智能体系统,可以考虑采用更简化的奖励机制,强调合作而非竞争,从而更容易训练出有效的协作策略。但是,这种方法可能不太适用于需要精细化控制每个智能体行为的场景。

WideSeek-R1 用的“荣辱与共”策略,最终奖励大家一起分,避免了智能体之间为了争功而产生内耗。这个思路挺有意思的,就像团队合作,成功了大家都有份,失败了一起承担,能提升团队凝聚力。我觉得在设计多智能体系统时,可以借鉴这种整体奖励的思路,避免智能体之间形成竞争关系。

你可以把Lead-agent想象成项目经理,负责拆解任务、分配工作和汇总结果;Subagent就是团队成员,各自负责不同的子任务。Lead-agent的存在避免了subagent之间的信息混乱,确保了整个任务的有序进行。这种框架在很多需要分工协作的场景下都有用武之地,比如自动驾驶、智能客服等等。当然,具体应用时还需要根据实际情况进行调整,比如增加agent的层级,或者调整agent之间的协作方式。

深度扩展就像是把一个问题钻研得很深,依靠的是单兵作战能力,优点是在特定领域能做到极致,但缺点是容易陷入思维定势;而广度扩展就像是集思广益,依靠的是团队协作能力,优点是能从多个角度解决问题,但缺点是可能不够深入。实际应用中,应该根据任务的特点来选择。比如,需要解决一个非常复杂的问题,可以先用深度扩展找到问题的核心,再用广度扩展来寻找不同的解决方案。或者,可以把两者结合起来,先用广度扩展来收集信息,再用深度扩展来分析信息,从而更好地解决问题。就好比一个团队,既要有专家,也要有通才,才能更好地完成任务。