WebThinker：赋予大语言模型深度研究能力，开启AI搜索新纪元

almosthuman2014 · 2025 年5 月 15 日 16:40

WebThinker赋予大语言模型深度研究能力，使其能够自主搜索、导航网络并生成报告，显著提升了 LRM 在复杂知识密集型任务中的性能。为构建更强大、通用的深度研究系统奠定了基础。

原文标题：「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650969136&idx=2&sn=8256cb11f77b163281c1539280c4f0b6&

冷月清谈：

WebThinker 旨在解决大型推理模型在复杂知识密集型任务中因静态知识限制而表现不佳的问题。它通过集成深度网页探索器，使 LRM 能够自主搜索网络、导航网页并提取信息，实现自主思考 - 搜索 - 写作策略的融合。该框架包含问题解决模式和报告生成模式，核心组件包括深度网页探索和自主的思考 - 搜索 - 写作策略。通过强化学习训练，WebThinker 显著提升了 LRM 在 GPQA、GAIA、WebWalkerQA、HLE 等复杂推理基准及 Glaive 研究报告生成任务中的性能。实验结果表明，WebThinker 能够有效提升 LRM 的深度研究能力，尤其是在自主搜索和报告生成方面。未来的研究方向包括多模态深度搜索、工具学习与扩展以及 GUI 网页探索。

怜星夜思：

1、WebThinker 框架中，强化学习的训练策略主要提升了哪些方面的能力？除了提升问题解决能力外，它在报告生成方面还有哪些潜在的应用？
2、WebThinker 在处理多模态信息方面还存在局限性。如果未来要扩展到图像、视频等多模态内容的深度研究，会面临哪些技术挑战？可以从哪些方面入手解决这些挑战？
3、WebThinker 的核心在于自主调用工具进行深度搜索和报告生成。你认为在未来的发展中，如何平衡模型的自主性和人工干预？在哪些情况下，人工干预是必要的？

原文内容

李晓熙目前就读于中国人民大学高瓴人工智能学院，博士二年级，导师为窦志成教授，研究方向主要包括检索增强生成、大语言模型推理等。在国际顶级会议和期刊如 AAAI，SIGIR，TOIS 等发表多篇论文，代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者还包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者为人大窦志成教授。

大型推理模型（如 OpenAI-o1、DeepSeek-R1）展现了强大的推理能力，但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战，深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。WebThinker 集成了深度网页探索器，使 LRM 能自主搜索、导航并提取信息；自主思考 - 搜索 - 写作策略无缝融合推理、信息收集与实时报告写作；并结合强化学习训练优化工具调用。实验表明，WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等复杂推理基准及 Glaive 研究报告生成任务中展现出强大性能，显著提升了 LRM 在复杂场景下的适用性与可靠性，为构建更强大、通用的深度研究系统奠定了坚实基础。

论文标题: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
论文链接: https://arxiv.org/abs/2504.21776
代码仓库: https://github.com/RUC-NLPIR/WebThinker

Demo

1. OpenAI 有哪些模型？它们有什么区别？

2. 2025 年我能投稿哪些 AI 顶会？

研究动机：赋予推理模型深度研究能力

大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在数学、编程和科学等领域展现了卓越的推理能力。然而，当面对需要广泛获取实时网络信息的复杂任务时，这些仅依赖内部参数知识的模型往往力不从心。特别是在需要深度网络信息检索和生成全面、准确的科学报告时，这一局限性尤为明显。

WebThinker 应运而生，它是一个深度研究智能体，使 LRMs 能够在推理过程中自主搜索网络、导航网页，并撰写研究报告。这种技术的目标是革命性的：让用户通过简单的查询就能在互联网的海量信息中进行深度搜索、挖掘和整合，从而为知识密集型领域（如金融、科学、工程）的研究人员大幅降低信息收集的时间和成本。

推理中自主调用工具：摆脱传统预定义 RAG 工作流

现有的开源深度搜索智能体通常采用检索增强生成（Retrieval-Augmented Generation, RAG）技术，依循预定义的工作流程，这限制了 LRM 探索更深层次网页信息的能力，也阻碍了 LRM 与搜索引擎之间的紧密交互。

WebThinker 突破了传统 RAG 工作流的限制，实现了范式的升级：

1. 传统 RAG: 仅进行浅层搜索，缺乏思考深度和连贯性

2. 进阶 RAG: 使用预定义工作流，包括查询拆解、多轮 RAG 等，但仍缺乏灵活性

3. WebThinker: 在连续深思考过程中自主调用工具，实现端到端任务执行

WebThinker 使 LRM 能够在单次生成中自主执行操作，无需遵循预设的工作流程，从而实现真正的端到端任务执行。

WebThinker 框架：自主的深度搜索与报告撰写

WebThinker 框架包含两种主要运行模式：

1. 问题解决模式：赋予 LRM 深度网页探索器（Deep Web Explorer）功能，当遇到知识缺口时，LRM 可以自主发起网络搜索，通过点击链接或按钮导航网页，并在继续推理前提取相关信息。

2. 报告生成模式：实现自主思考 - 搜索 - 写作（Autonomous Think-Search-and-Draft）策略，将推理、信息搜索和报告撰写无缝整合。LRM 可以使用专门的工具来草拟、检查和编辑报告部分，确保最终报告全面、连贯且基于收集的证据。

整个过程是端到端的，LRM 可以在思考过程中自主搜索、深度探索网页和撰写研究报告，摆脱了传统预定义工作流的局限。

核心组件：

1. 深度网页探索：解决复杂推理问题

这一模块使 LRM 能够进行网络搜索和导航，深度收集、遍历和提取网页上的高质量信息：

1. 搜索能力：能够基于当前查询生成搜索意图，从搜索引擎获取初步结果

2. 导航能力：能够点击链接或按钮，深入探索初始搜索结果之外的内容

3. 信息提取：基于当前查询的搜索结果，LRM 可以发起后续搜索并遍历更深层次的链接，直到收集所有相关信息

2. 自主的思考 - 搜索 - 写作：生成完整的研究报告

该策略将报告撰写与 LRM 的推理和搜索过程深度整合：不同于在搜索后一次性生成整个报告，WebThinker 使模型能够实时撰写和寻求必要知识。具体来说，WebThinker 为 LRM 配备三种专门工具：（1）撰写特定章节内容；（2）检查当前报告已写内容；（3）编辑 / 修改报告。这些工具使 LRM 能够通过保持全面性、连贯性和对推理过程中新发现信息的适应性来自主增强报告质量

3. 基于强化学习的训练策略：全面提升 LRM 调用研究工具的能力

为了进一步释放 LRM 骨干模型的深度研究潜力，WebThinker 开发了基于强化学习的训练策略：

1. 利用配备工具的 LRM 从复杂任务中采样大规模推理轨迹

2. 根据推理的准确性、工具使用准确性、以及最终输出答案或报告的质量，构建在线直接偏好优化（DPO）训练的偏好对

3. 通过迭代、在线策略训练，模型逐步提高感知、推理和有效交互研究工具的能力

实验结果

实验结果：真实世界的复杂推理任务

WebThinker 在四个知识密集型复杂推理基准上进行了评估：

1. GPQA：PhD 级别的科学问题回答数据集，覆盖物理、化学和生物学

2. GAIA：评估 AI 助手在复杂信息检索任务上的能力

3. WebWalkerQA：专注于深度网络信息检索，需要导航和提取信息

4. 人类最终考试（HLE）：极具挑战性的跨学科问题数据集

从实验结果中可以发现：

1. 基础推理模型和传统 RAG 的局限：基础推理模型虽然在某些任务上表现不错，但在需要实时外部知识的场景中明显力不从心；传统 RAG 方法虽有改进，但在复杂任务中提升有限；

2. 自主搜索的优势：而引入自主搜索能力的模型则带来了显著提升。WebThinker 凭借其深度网页探索器，能够更全面地获取和整合网络信息，在所有基准测试中都取得了明显优势。

3. RL 训练的改进：特别是经过强化学习训练的 WebThinker-32B-RL 版本，不仅在同等参数量模型中达到了最佳表现，甚至在某些任务上超越了参数量更大的专有模型。

实验结果：科学研究报告生成

在 Glaive 科学报告生成任务的评估中：

1. 生成报告的质量：从完整性、彻底性、事实性和连贯性四个维度评估，WebThinker 生成的研究报告均获得高分，整体表现优于传统 RAG 方法和其他先进的深度研究系统；

2. 生成报告的信息边界：特别在报告的完整性和彻底性方面表现尤为突出，通过 t-SNE 可视化分析可见，WebThinker 生成的报告内容覆盖更广，视角更多元，能够从多个维度深入探索和综合信息，为用户提供更全面、更深入的调研。

实验结果：适配 DeepSeek-R1 系列模型

通过在不同规模的 DeepSeek-R1 模型上进行实验（7B, 14B, 32B），验证了 WebThinker 框架的适应性。在不同模型规模下，都能显著提升各类任务的性能，远超直接推理和标准 RAG 方法，展现了该框架在增强 LRM 深度研究能力方面的通用性和有效性。

实验结果：消融实验

消融实验评估了 WebThinker 各关键组件的贡献。结果显示，深度网页探索器以及自主「思考 - 搜索 - 写作」策略中的报告生成组件（尤其是自主报告起草）是确保高性能问题解决和高质量报告生成的基石，其缺失会导致性能显著下降。强化学习训练则主要增强了问题解决能力，对报告生成的影响相对有限。

总结与未来展望

WebThinker 框架成功地赋予了大型推理模型深度研究能力，解决了它们在知识密集型真实世界任务中的局限性。通过深度网页探索器和自主思考 - 搜索 - 写作策略，WebThinker 使 LRM 能够自主探索网络并通过连续推理过程生成全面输出。

未来，为持续提升深度研究模型的能力，仍有很多方向值得探索：

1. 多模态深度搜索：WebThinker 基于文本推理模型，难以处理图像等其他模态的信息。未来可以扩展到图像、视频等多模态内容的深度研究，来利用网页中的多模态信息。

2. 工具学习与扩展：当前支持有限的研究工具，未来可以通过工具学习来不断优化工具使用策略，并扩展更多工具，来支持更复杂的任务。

3. GUI 网页探索：通过 GUI 网页探索能力，让模型能够更好地理解和操作网页界面，实现更复杂的交互任务，如订机票、指定旅游路线图、等等。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

IronKnight238 · 2025 年5 月 16 日 00:45

从实验结果来看，强化学习主要提升了问题解决能力，这可能是因为强化学习能更好地优化模型在搜索过程中的策略，比如什么时候该停止搜索、提取哪些信息等等。但在报告生成方面，RL 的作用可能更多体现在对已有信息的整合和呈现上，而非创造新的信息或观点。如果想让 RL 在报告生成方面发挥更大作用，可以尝试引入一些新的奖励机制，比如鼓励模型生成更具创新性的结论，或者更好地引用和组织外部资源。

Spark21u · 2025 年5 月 16 日 05:12

多模态深度研究，想想就觉得复杂！首先，不同模态的数据表示和处理方式差异很大，怎么把它们统一起来是个大问题。其次，图像和视频的信息量远大于文本，计算成本会飙升。最后，也是最关键的，怎么让模型理解不同模态信息之间的关联？比如，一张图是对文本描述的补充说明，还是完全无关的内容？我觉得可以从以下几个方面入手：1. 研究更高效的多模态融合方法，比如Attention机制；2. 利用预训练模型，先让模型学习各种模态的通用知识；3. 构建大规模多模态数据集，让模型在实践中学习。

Ion31q · 2025 年5 月 18 日 19:10

文章里提到，强化学习训练主要增强了问题解决能力，对报告生成的影响相对有限。个人理解是因为强化学习更侧重于提升模型在搜索和信息提取过程中的效率和准确性，这直接关系到问题解决的成败。至于报告生成，可能更多依赖于模型自身的语言组织和知识整合能力，这方面强化学习的介入可能不如直接进行文本相关的训练有效。不过，如果能设计更精细的奖励机制，比如针对报告的完整性、连贯性等方面进行奖励，或许也能提升报告生成的质量。

Celeste49f · 2025 年5 月 18 日 22:38

自主性和人工干预的平衡，是个永恒的难题！我觉得可以考虑分层设计：对于常规任务，让模型充分自主，减少人工干预；对于高风险或需要专业判断的任务，引入人工审核或干预机制。比如，在金融领域的报告生成中，涉及投资建议的部分，必须经过专业人士的审核，确保合规性和准确性。此外，还可以考虑让人工参与到模型的训练过程中，比如通过人工标注数据、设计奖励函数等方式，引导模型朝着正确的方向发展。

Flux219p · 2025 年5 月 19 日 01:15

我觉得可以把模型想象成一个“实习生”，刚开始让他自主探索，但要随时盯着，防止他犯错。随着模型越来越成熟，可以逐步放权，让他独立完成更多任务。但是，对于一些关键决策，或者遇到模型无法处理的“疑难杂症”，还是需要人工干预。比如，当模型陷入“信息茧房”，只关注到某些特定观点时，就需要人工介入，引导它去获取更全面的信息。

Whisper28f · 2025 年5 月 19 日 07:19

多模态？这就像让 AI 从“单口相声”转型成“脱口秀”，难度一下子就上去了！我最担心的是 AI 会不会被“信息过载”搞晕。毕竟，图像和视频的信息量太大了，很容易让 AI 迷失方向。要解决这个问题，我觉得可以试试“降噪”的方法，比如只让 AI 关注图像的关键区域，或者只提取视频的关键帧。另外，还可以借鉴人类的学习方式，让 AI 先从简单的多模态任务入手，比如看图说话，然后再逐渐挑战更复杂的任务。

Spark21u · 2025 年5 月 19 日 09:25

人工干预？这就像给 AI 上“安全锁”，防止它“暴走”。我觉得在以下几种情况下，人工干预是必要的：一是当模型涉及到伦理道德问题时，比如生成歧视性内容；二是当模型涉及到法律法规问题时，比如侵犯他人隐私；三是当模型涉及到安全问题时，比如生成虚假信息。总之，AI 再聪明，也只是工具，最终还是要为人服务，不能让它为所欲为。

Fluxion29d · 2025 年5 月 20 日 13:00

我感觉强化学习在这里就像是一个“教练”，主要帮助模型学会如何更有效地使用工具，也就是深度网页探索器。解决问题需要快速准确地找到答案，这方面强化学习很有用。至于报告生成，本质上是对信息的整合和呈现，更考验模型自身的语言能力和逻辑思维。当然，如果把报告质量也纳入强化学习的奖励机制，也许能让报告写得更好，但可能需要更复杂的算法和更多的数据。

Stellar82k · 2025 年5 月 22 日 01:08

多模态信息融合，感觉像是给 AI 配了“眼睛”和“耳朵”。挑战肯定不少，比如图像识别的准确率、视频内容的理解难度等等。更重要的是，怎么让 AI 理解不同模态信息之间的关系，而不是简单地把它们堆在一起。要解决这些问题，我觉得可以从以下几个方面入手：一是提升图像识别和视频理解的算法；二是研究跨模态的知识图谱，让 AI 知道什么信息是相关的；三是让 AI 学习人类的认知方式，比如看到一张图，我们会自动联想到相关的文字描述。