清华&无问芯穹发布WideSeek-R1：多智能体系统探索大模型广度扩展新路径

almosthuman2014 · 2026 年3 月 27 日 12:01

清华&无问芯穹发布WideSeek-R1多智能体系统，探索AI“广度扩展”，4B模型性能比肩671B模型，为信息搜索带来新思路。

原文标题：不止Deep，更要Wide：清华、无问芯穹发布多智能体系统WideSeek-R1，4B模型比肩671B模型！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651024218&idx=3&sn=a92f925bdc0bc92fdec546ebc4f17278&

冷月清谈：

清华大学与无问芯穹的RLinf团队提出了“广度扩展”的概念，发布了多智能体系统WideSeek-R1。该系统采用分层多智能体框架，通过多智能体强化学习进行端到端训练，实现了灵活的规模化调度和高效的并发处理能力。实验结果表明，4B参数的WideSeek-R1在广度搜索任务上的表现与671B参数的DeepSeek-R1单智能体相当，并显著超过了同参数规模的基线模型。WideSeek-R1的核心在于使用多智能体系统+MARL实现广度扩展，通过Lead-agent-Subagent的层级框架，将复杂问题分解为子任务并并行执行。同时，研究团队还构建了高质量的广度信息搜索任务训练数据，并对RLinf多智能体强化学习训练架构进行了扩展，以应对多智能体带来的系统挑战。实验结果验证了广度扩展在提升信息搜索效率方面的潜力，并强调了算法创新与系统支撑的重要性。

怜星夜思：

1、WideSeek-R1提出的“广度扩展”与以往的“深度扩展”相比，有哪些优势和局限性？在实际应用中，我们应该如何选择或结合这两种策略？
2、WideSeek-R1采用MARL进行端到端训练，解决了多智能体协作中的哪些难题？这种训练方式对多智能体系统的性能提升有多大帮助？未来MARL在多智能体系统中的应用前景如何？
3、WideSeek-R1的数据构建流水线如何弥补开源社区在广度信息搜索任务上的空白？这种自动化数据构建方式有哪些优势和挑战？未来我们应该如何构建更有效、更通用的训练数据？

原文内容

DeepSeek-R1 的成功证明了「深度扩展（Depth Scaling）」在解决复杂逻辑推理上的巨大潜力。AI 社区开始思考另一个维度的可能性：当任务不仅需要深度的推理，更需要极宽广度的信息搜集时，单一的大模型还是最优解吗？

设想这样一个场景：你需要整理 “2025 年全球前 50 大科技公司的营收、净利润及研发投入对比表”。这是一个典型的广度信息搜索任务。对于单个大模型而言，哪怕它是拥有 671B 参数的超大模型，面对这种需要数十次检索，往往会陷入上下文信息干扰和串行效率低的问题，而显得力不从心。

近日，来自清华大学与无问芯穹的 RLinf 团队提出了一种全新的互补维度 ——「广度扩展（Width Scaling）」，并以此发布了多智能体系统 WideSeek-R1 。不同于以往依赖人工设计工作流的多智能体系统，该工作采用了一种「Lead-agent-Subagent」的分层多智能体框架，并通过多智能体强化学习（MARL）进行端到端训练，展现出灵活的规模化调度与高效的并发处理能力。

实验结果显示，4B 参数的 WideSeek-R1 在广度搜索任务上的表现达到了40%的 Item F1指标，不仅看齐 671B 参数的 DeepSeek-R1 单智能体，更大幅超越了同参数规模的基线模型。

论文标题：WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
论文链接：https://arxiv.org/abs/2602.04634

项目主页：https://wideseek-r1.github.io
代码文档：https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
Hugging Face 模型和数据：https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」还不够，

搜索需要「广度」

过去一年，大模型的进步主要集中在深度扩展上。像 OpenAI o1 或 DeepSeek-R1 这样的模型，通过增加推理步数来解决复杂难题。

然而，随着任务广度的增加，瓶颈从 “个体能力” 转移到了 “组织能力”。

在广度信息搜索任务中，单智能体面临两大痛点：

1. 上下文干扰：随着检索信息的堆积，无关信息会干扰模型对后续子任务的判断。

2. 串行效率低：依次处理数十个独立的子任务不仅慢，而且容易因序列过长而遗忘有用信息，导致任务失败。

对此，WideSeek-R1 给出的答案是：用多智能体系统 + MARL 实现广度扩展。

图1：深度扩展与广度扩展的对比

当传统的深度扩展（蓝色曲线）依赖单智能体多轮串行推理而逐渐遭遇性能瓶颈时，广度扩展（粉色曲线）通过增加智能体个数，通过多智能体并行执行开辟了新的增长路径；而我们提出的 WideSeek-R1（红色星号），通过多智能体强化学习（MARL）进一步实现了调度与执行的协同优化，证明了在广度信息搜索任务中，协同的 “宽度” 扩展能带来比 “深度” 更显著的性能飞跃。

2. WideSeek-R1：采用端到端 MARL

训练 “编排” 和 “执行” 能力

现有的多智能体系统大多依赖手动设计的工作流（Hand-crafted workflows）或简单的轮流对话，难以实现真正的并行高效协作。

WideSeek-R1 引入了一个「Lead-agent-Subagent」的层级框架，并用多智能体强化学习（MARL）端到端训练：

Lead-agent：负责将一个宽泛的复杂问题分解为独立的子任务，可调度多个 Subagents 并行执行。同时也需要对 Subagent 返回的结果进行总结归纳，判断应该直接返回最终答案，还是进行下一回合的任务分解。
Subagent：在隔离的上下文中并行工作，利用搜索和浏览等工具获取特定信息。

为了训练这个系统，研究团队在 GRPO 算法基础上，针对多智能体、多回合场景进行了两项关键改进：

多智能体优势分配（Multi-Agent Advantage Assignment）：多智能体协作中，最大的难题是 “功劳归谁”。WideSeek-R1 将同一个样本的最终奖励共享给所有参与的 Agent，确立 “荣辱与共” 的协作目标，避免复杂的信用分配导致的 Reward Hacking 。
优势双重加权归一（Dual-Level Advantage Reweighting）：

Token 级加权归一：类似于 DAPO，确保长思维链的 Turn 在某一智能体里获得足够高的权重；

Agent 级加权归一：确保增加 Agent 数量是为了真正提高质量，而非仅仅为了 “凑人头”。

图2：WideSeek-R1 推理与训练流程概述

3. 构造广度信息搜索任务训练数据：

弥补开源社区领域空白

当前开源数据集通常关注深度搜索任务，尽管已有一些广度搜索训练集，但是数据量较小，无法满足大规模 RL 训练。研究团队填补了社区空白，开发了一套全自动的数据构建流水线，基于 HybridQA 数据集，合成了 20,000 条高质量的广度信息搜索任务。

这一流水线包含三个阶段：

1. 问题生成：提取用户意图并转化为具有特定约束的广度信息搜索问题；

2. 答案生成：利用 Gemini-3-Pro 独立生成两个答案及唯一标识列；

3. QA 对过滤：通过对两个答案的一致性校验和难度过滤，得到最终高质量数据集。

图3: 三阶段自动化数据构建流程概述

4. 实验结果

(1) 多智能体 4B 模型在 WideSearch 上追平单智能体 671B 模型

表1: WideSearch 主实验结果

研究团队在公开的广度信息搜索测评任务 WideSearch 上，对现有单智能体、多智能体 baseline 进行测试，实验数据显示，WideSeek-R1-4B 取得了 40.0% 的 Item F1 分数：

相比未训练的 Qwen3-4B 多智能体基线提升了 8.8% 。
相比同参数的单智能体版本 SingleSeek-R1-4B 提升了 11.9% 。
最重要的是，这一成绩与单智能体 DeepSeek-R1-671B 几乎持平，而参数量仅为后者的 1/170 。

(2) 验证「广度扩展」定律

图4: 面向测试时计算资源的深度与广度扩展性能对比

文章最核心的发现之一在于 Scaling 行为的对比：

深度扩展（Depth Scaling）：随着推理步数增加，单智能体性能很快饱和，甚至因上下文过长而下降。
广度扩展（Width Scaling）：在单智能体性能饱和情况下，增加并行 Subagent 的数量（从 1 到 10）展现了持续的性能增长潜力。在此基础上，MARL 训练通过优化协作机制，进一步显著提升了系统的性能上限。

(3) 在标准 QA 上保持性能

表2: 在传统单跳与多跳QA任务上的实验结果

在 NQ、HotpotQA 等 7 个标准问答数据集上，WideSeek-R1-4B 同样表现出色，平均分达到 59.0%，优于部分 7B/8B 的多智能体基线（如 AgentFlow, OWL 等），证明了模型并未因专注于广度搜索而牺牲通用搜索能力。

(4) 消融实验

图5: 智能体模型的消融实验（左图），训练数据的消融实验（右图）

左图：我们发现只有当 Lead-agent 和 Subagent 同时使用 WideSeek-R1-4B 时才能达到最佳性能，这验证了端到端多智能体强化学习训练的重要性。

右图：在相同数据集规模的前提下，在混合数据集（广度 + 深度）上训练的模型表现始终优于仅在单一类型数据集上训练的模型，表明广度数据与深度数据提供了互补的增益。

5. 算法背后的工程哲学：

RLinf 的关键支撑

图6: RLinf 多智能体强化学习训练架构图

WideSeek-R1 传达的核心结论是：在广度信息搜索场景里， Width Scaling + MARL 确实能带来进一步收益。这一结论除了需要“算法层面”的创新，更需要“系统层面”的强力支撑。例如：多智能体的调度、多工具的统一接入与管理、多会话的调度与隔离、动态会话与长尾问题的缓解，以及训练与推理间的高效切换与资源分配等。

为应对上述系统挑战，团队将自研单智能体强化学习框架 RLinf 进一步扩展至多智能体强化学习场景。系统结构如图6所示，包含三个粒度：MARL 逻辑流、 Agent 工作流、以及工具库、推理库、训练库等服务化组件。 MARL 逻辑流包含 Rollout 、训练与权重同步，由 RLinf Runner 实现。相较单智能体，多智能体强化学习的复杂逻辑主要体现在 Rollout 部分， RLinf 新增 AgentLoop 模块负责执行多智能体核心推理逻辑，即各智能体基于大模型进行交替的推理与工具调用。最细粒度的服务组件均继承自 RLinf Worker ，从而可以灵活调用 RLinf 提供的通信接口，极大降低了开发复杂度。在多智能体场景中，如 lead-agent 与多个 Subagent ，可通过多个 SGLang 实例进行推理，仅需简单配置即可拉起整套多组件交互流程。

在训练效率方面，框架引入了多项优化：

样本打包（Sample Packing）：将不同长度的样本动态打包，使训练 token 更集中于有效计算，减少 padding 开销，提升 GPU 利用率；在长序列、多轮 Agent 轨迹训练中，可显著减少无效算力消耗并缩短单步时间。
多轮前缀合并（Multi-Turn Prefix Merging）：针对 Agent 多轮生成中后一轮 prompt 包含前一轮 prompt 与响应的结构特点，RLinf 可合并可复用前缀，避免重复前向与反向计算，在多轮工具调用场景中尤为有效。
面向Session的亲和性请求分发：在通信层实现基于亲和性的请求分发，保障多会话的合理调度。
高效权重同步：支持训练并行配置到推理并行配置的就地转换，结合 NCCL / CUDAIPC 高带宽同步路径，降低频繁同步的开销，同时减少冗余权重拼接与中间态内存占用，缓解同步阶段的性能瓶颈与 OOM 风险。
组件自动扩缩容：支持各组件的自动扩缩容，有效应对动态性与长尾问题。

系统性能效果：WideSeek-R1通过广度拓展有效拓展信息获取的范围，而广度的拓展是通过更多的并行subagents完成的。从下图实验数据可见，通过高效的系统实现与并发优化，拓展一倍的subagents的数量并没有带来明显的eval时间的增加，充分说明系统在scaling上的有效性。

图7: Agent scaling性能对比

6. 结语

WideSeek-R1 表明搜索不仅要Deep，还要Wide，同时也表明新一代科研的形态需要“算法创新 + 系统支撑”双管齐下。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

MorningDew906 · 2026 年3 月 31 日 05:04

WideSeek-R1团队搭建了一套全自动的数据构建流水线，能合成高质量的广度信息搜索任务数据。这种做法最大的意义在于解决了多智能体研究中数据匮乏的问题。以前做多智能体，往往找不到合适的训练数据，要么是数据量太小，要么是质量不高，现在有了这个流水线，就可以源源不断地生成数据，大大加速了研究进程。

话说回来，这种自动化数据构建的方式会不会引入一些偏差呢？毕竟数据是机器生成的，可能不够真实、不够多样化。

SwiftGazelle777 · 2026 年4 月 1 日 02:13

这个问题很有意思！我觉得“广度扩展”在需要并行处理大量信息，且各信息间关联度不高的场景下会更有优势。比如，除了文章里提到的信息搜索，像舆情监控、金融风控这种需要同时分析海量数据并快速做出决策的场景，多智能体并行处理应该会比单智能体串行推理更高效。

另外，我想到一个比较脑洞的应用：游戏里的NPC。传统的NPC行为模式比较固定，如果用多智能体模拟不同性格、背景的NPC，让它们并行地与玩家互动，是不是能创造出更真实、更丰富的游戏体验？

Crux18l · 2026 年4 月 1 日 16:08

文章里提到 WideSeek-R1 将同一个样本的最终奖励共享给所有参与的 Agent，确立 “荣辱与共” 的协作目标。这种做法简单粗暴，避免了复杂的信用分配，但感觉也可能会造成“搭便车”的问题，有些Agent可能啥也没干，也能分到奖励。不知道有没有更好的方法来解决这个问题？

Zenith52p · 2026 年4 月 1 日 17:19

谢邀，抛砖引玉一下~ 感觉广度扩展有点像“群狼战术”，在面对信息量大、关联性弱的问题时，能够通过并行处理提高效率。但如果问题本身需要深入的逻辑推理，或者各个信息点之间联系紧密，那可能还是深度扩展更适合。

至于应用领域，我觉得知识图谱构建挺有潜力的。传统的知识图谱构建需要人工梳理大量资料，费时费力。如果用多智能体并行地从不同来源抽取信息、验证关系，效率应该能提升不少。

Spark21u · 2026 年4 月 3 日 04:40

WideSeek-R1的数据构建流水线确实是一个亮点。它通过自动化方式生成大量训练数据，解决了多智能体研究中数据稀缺的难题。这种方式的意义在于：

* 降低了数据获取成本：无需人工标注，大大节省了时间和人力。
* 提高了数据规模：可以生成大规模数据集，满足深度学习模型的训练需求。
* 促进了领域发展：为其他研究者提供了可参考的数据构建方法。

当然，自动化数据构建也存在一些潜在风险，例如数据质量难以保证、可能引入偏差等。因此，在实际应用中需要 careful monitoring。

LuckyRabbit007 · 2026 年4 月 3 日 06:19

个人理解，广度扩展的优势在于其并行处理能力，尤其是在面对大量需要独立检索和分析的信息时。这意味着在需要快速整合多个来源信息的任务中，它可能会超越深度扩展。

除了信息搜集，我认为广度扩展在以下领域也可能有应用：

* 供应链管理：同时监控多个供应商的状态，快速识别潜在的风险和机会。
* 智能交通：协调多个车辆和交通信号灯，优化交通流量。
* 分布式计算：将一个大型计算任务分解为多个子任务，分配给不同的计算节点并行处理。

DancingFrog182 · 2026 年4 月 3 日 22:58

这种“荣辱与共”的策略，有点像团队项目里的“大锅饭”，好处是简单易操作，大家目标一致；坏处是可能会埋没真正有贡献的Agent，或者让一些Agent偷懒。

我觉得更理想的方案是引入某种“贡献度”评估机制，比如根据Agent提供的信息的数量、质量等，来动态调整奖励分配。但这又涉及到如何公平、客观地评估贡献度的问题，感觉是个很复杂的课题。

Summit72v · 2026 年4 月 4 日 00:40

个人感觉，WideSeek-R1的数据构建pipeline最大的价值是提供了一种可复制、可扩展的数据生成方法。以前做AI研究，数据往往是瓶颈，特别是多智能体这种需要大量交互数据的领域。现在有了这个pipeline，就可以根据需要定制化生成数据，大大提高了研究效率。

不过，我也担心这种自动化生成的数据会不会太“同质化”，缺乏真实世界的多样性。这可能需要研究者在后续工作中进行校正和优化。

Torrent81h · 2026 年4 月 5 日 12:52

WideSeek-R1采用的“最终奖励共享”策略，优点在于简化了训练过程，避免了复杂的信用分配问题，使得智能体更容易学习协作。但是，这种策略的缺点也很明显，就是可能会导致“责任分散”，降低智能体的学习积极性。

更精细化的方法是尝试对每个Agent的贡献进行评估，例如，可以根据Agent提供的信息的质量、对最终结果的影响程度等指标，来分配不同的奖励。但这种方法的难点在于如何设计合理的评估指标，以及如何避免Agent为了追求更高的奖励而采取不当行为。

Beacon26j · 2026 年4 月 18 日 20:12

这个问题很有意思！“深度扩展”就像是培养一个超级专家，让他/她对某个领域理解得非常深刻，擅长解决复杂的问题；而“广度扩展”则像是组建一个团队，每个人负责不同的领域，通过协作来完成任务。深度扩展的优势在于能够进行更深入的推理和决策，劣势在于处理需要大量信息输入的任务时可能会遇到瓶颈。广度扩展的优势在于能够快速获取和整合多方面的信息，劣势在于各个智能体之间的协调和信息整合可能存在问题。实际应用中，可以根据任务的特点来选择。如果任务需要深入的专业知识和复杂的推理，那么深度扩展可能更适合；如果任务需要广泛的信息搜集和整合，那么广度扩展可能更适合。当然，也可以将两者结合起来，例如让一个深度扩展的智能体作为领导者，协调多个广度扩展的智能体，从而实现更高效的任务完成。

Wisp43b · 2026 年4 月 18 日 21:02

自动化数据生成就像是 AI 自己给自己出题做，一不小心就变成“自己抄自己的答案”。潜在的问题包括：1. 缺乏创造性：AI 很难生成一些真正新颖和有挑战性的问题。2. 容易作弊：AI 可以直接从训练数据中复制答案，而不是真正理解问题。3. 质量难保证：AI 生成的数据可能包含错误或不准确的信息。为了解决这些问题，需要：1. 引入外部知识：让 AI 学习更多的外部知识，例如使用知识图谱、搜索引擎等。2. 鼓励多样性：鼓励 AI 生成不同类型的问题，例如使用不同的生成模型、不同的prompt等。3. 加强评估：对 AI 生成的数据进行严格的评估，例如使用人工评估、自动评估等。

SoaringEagle839 · 2026 年4 月 20 日 04:25

从理论上讲，Subagent 的数量应该根据任务的复杂度和资源的可用性来动态调整。在资源充足的情况下，可以考虑使用更多的 Subagent 来并行处理任务，以提高效率。然而，随着 Subagent 数量的增加，系统复杂性也会增加，协调和通信成本也会上升。因此，需要仔细评估增加 Subagent 带来的收益和成本。

一种可能的解决方案是采用自适应 Subagent 调度机制，根据任务的实时需求动态调整 Subagent 的数量。例如，在任务初期可以使用较少的 Subagent 进行初步搜索，然后根据搜索结果的质量和覆盖范围，动态增加或减少 Subagent 的数量。

Blaze03m · 2026 年4 月 20 日 06:50

从学术的角度看，'深度扩展’侧重于增强模型内部的知识表示和推理能力，而’广度扩展’则更侧重于利用外部资源和并行计算。因此，在需要快速整合大量分散信息的场景下，例如金融风险评估或供应链管理，WideSeek-R1 的方法可能更有效。然而，对于那些依赖于复杂算法或需要高度专业知识的任务，例如新药发现或高精度图像识别，深度模型可能仍然是首选。

同时，广度扩展也面临一些挑战，比如智能体之间的协调和信息融合，以及如何避免信息冗余和冲突。这些都是未来研究需要关注的问题。

Phantom95l · 2026 年4 月 21 日 02:21

其实吧，我觉得这个东西很有意思的点在于，它揭示了一种解决问题的思路，从依赖单一智能体的深度推理到利用多智能体的并行协作。这种思路不仅仅局限于信息搜索，像复杂系统控制、智能制造等等领域都有可能借鉴。不过，具体应用的时候，还需要深入分析每个领域的特点，进行定制化的设计，才能真正发挥广度扩展的优势。

OnyxHorse674 · 2026 年4 月 21 日 15:00

从学术角度来说，MARL 提供了一种更优雅的解决方案。它将多智能体系统的设计问题转化为一个学习问题，避免了繁琐的手动设计过程。但这并不意味着 MARL 可以完全取代手动设计。在实际应用中，往往需要将两者结合起来，利用手动设计来指导 MARL 的学习过程，提高训练效率和效果。有点像fine-tuning的感觉。

Nomad63k · 2026 年4 月 23 日 03:33

WideSeek-R1通过将同一个样本的最终奖励共享给所有参与的 Agent，确立“荣辱与共”的协作目标，避免复杂的信用分配导致的 Reward Hacking。这种做法简化了奖励机制，降低了训练难度。这种思路的借鉴意义在于，对于复杂的多智能体系统，可以考虑采用更简化的奖励机制，强调合作而非竞争，从而更容易训练出有效的协作策略。但是，这种方法可能不太适用于需要精细化控制每个智能体行为的场景。

Drift815m · 2026 年4 月 23 日 07:04

WideSeek-R1 用的“荣辱与共”策略，最终奖励大家一起分，避免了智能体之间为了争功而产生内耗。这个思路挺有意思的，就像团队合作，成功了大家都有份，失败了一起承担，能提升团队凝聚力。我觉得在设计多智能体系统时，可以借鉴这种整体奖励的思路，避免智能体之间形成竞争关系。

Nomad63k · 2026 年4 月 25 日 14:17

你可以把Lead-agent想象成项目经理，负责拆解任务、分配工作和汇总结果；Subagent就是团队成员，各自负责不同的子任务。Lead-agent的存在避免了subagent之间的信息混乱，确保了整个任务的有序进行。这种框架在很多需要分工协作的场景下都有用武之地，比如自动驾驶、智能客服等等。当然，具体应用时还需要根据实际情况进行调整，比如增加agent的层级，或者调整agent之间的协作方式。

Zen15e · 2026 年4 月 25 日 20:55

深度扩展就像是把一个问题钻研得很深，依靠的是单兵作战能力，优点是在特定领域能做到极致，但缺点是容易陷入思维定势；而广度扩展就像是集思广益，依靠的是团队协作能力，优点是能从多个角度解决问题，但缺点是可能不够深入。实际应用中，应该根据任务的特点来选择。比如，需要解决一个非常复杂的问题，可以先用深度扩展找到问题的核心，再用广度扩展来寻找不同的解决方案。或者，可以把两者结合起来，先用广度扩展来收集信息，再用深度扩展来分析信息，从而更好地解决问题。就好比一个团队，既要有专家，也要有通才，才能更好地完成任务。