Search-R1：强化学习赋能大模型，实现推理与搜索的无缝融合

almosthuman2014 · 2025 年4 月 21 日 15:02

UIUC与谷歌发布Search-R1，利用强化学习训练大模型自主进行推理和搜索，解决知识缺失问题，显著提升问答性能。

原文标题：UIUC联手谷歌发布Search-R1：大模型学会「边想边查」，推理、搜索无缝切换

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650966013&idx=2&sn=a90270c9df27f5fc7984f993ac0bec08&

冷月清谈：

UIUC和谷歌联合发布Search-R1，一种基于强化学习的全新框架，旨在提升大语言模型在推理过程中利用外部信息的能力。该框架允许模型在生成答案时灵活调用搜索引擎，实现“边推理，边搜索”。与传统的RAG方法相比，Search-R1无需大规模的监督数据，而是通过强化学习自主学习查询和信息利用策略。实验结果表明，Search-R1在多个问答任务上表现出色，显著提升了模型性能。该研究还深入分析了不同训练策略对搜索增强推理的影响，并为未来的多模态推理任务应用奠定了基础。

怜星夜思：

1、Search-R1通过强化学习让模型自主决定何时以及如何搜索，这种方式和人为预设的搜索策略相比，有哪些潜在的优势和劣势？
2、文章中提到Search-R1在训练时对搜索结果进行了损失屏蔽（loss masking），这是为什么？如果不进行损失屏蔽，可能会出现什么问题？
3、Search-R1允许模型进行多轮搜索，这种机制在哪些场景下特别有用？它可能会带来哪些新的挑战？

原文内容

本文的作者来自伊利诺伊大学香槟分校（UIUC）、马萨诸塞大学（UMass）和谷歌。本文的第一作者为 UIUC 博士生金博文，主要研究方向为与大语言模型相关的智能体、推理和强化学习研究。其余学生作者为 UMass 博士生曾翰偲和 UIUC 博士生岳真锐。本文的通信作者为 UIUC 教授韩家炜。

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力，尤其是在无需人工标注推理过程的设定下，模型可以学习到如何更合理地组织回答。然而，这类模型缺乏对外部数据源的实时访问能力，一旦训练语料中不存在某些关键信息，推理过程往往会因知识缺失而失败。

与此同时，另一个研究方向——搜索增强生成（Retrieval-Augmented Generation, RAG），试图通过引入外部搜索引擎缓解上述问题。现有 RAG 方法主要分为两类：

基于 Prompting 的方法：直接在提示词中引导大模型调用搜索引擎。这种方式虽无需额外训练，但存在明显局限：大模型本身可能并不具备如何与搜索引擎交互的能力，例如何时触发搜索、搜索什么关键词等，往往导致调用行为不稳定或冗余。

基于监督微调（SFT）的训练方法：通过构建高质量的数据集，训练模型学习合理的搜索调用策略。这类方法具有更强的适应性，但却面临可扩展性差的问题：一方面，构建高质量、覆盖丰富推理路径的搜索数据非常昂贵；另一方面，由于搜索操作本身不可微分，无法直接纳入梯度下降优化流程，阻碍了端到端训练的有效性。

为此，我们提出了一个新的训练范式——Search-R1，它基于强化学习，通过环境交互式学习方式训练大模型自主掌握推理与搜索交替进行的策略，实现真正意义上的「边推理，边搜索」的闭环智能体。

论文标题：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
论文地址：https://arxiv.org/abs/2503.09516
代码地址：https://github.com/PeterGriffinJin/Search-R1
huggingface 主页：https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

方法

搜索增强的强化学习框架

传统 RL 方法通常让大模型仅在固定输入上学习生成答案。而 Search-R1 引入了一个可交互的「搜索引擎模块」，模型可以在生成过程中随时发起搜索请求，获取外部知识，从而提升推理质量。

为了避免训练时对搜索结果本身产生不必要的「记忆」，我们对搜索引擎返回的文本进行了损失屏蔽（loss masking），确保模型仅学习如何在检索增强背景下进行合理推理，而非简单复制外部知识。

多轮搜索调用的生成机制

Search-R1 允许模型在回答前进行多轮推理与搜索交替进行。具体流程如下：

模型首先通过 <think>...</think> 标签进行推理；
如果模型判断当前知识不够，会触发 <search>关键词</search>；
系统自动调用搜索引擎，将搜索结果以 <information>...</information> 的形式插入上下文；
模型根据新信息继续推理，直到输出 <answer>答案</answer>为止。

整个过程高度模块化且可扩展，支持多个搜索引擎与自定义检索策略。

结构化的训练模板

我们设计了简单但有效的训练模板（instruction），统一所有训练样本的格式：

这种训练模板（instruction）指导大语言模型以结构化的方式与外部搜索引擎进行交互，同时保留策略空间的灵活性，使模型在强化学习过程中能够自主探索更优的搜索—推理策略。

轻量的奖励设计

为减少训练成本与复杂性，我们采用了基于最终回答准确性的奖励函数，无需构建额外的神经网络打分模型，提升了训练效率并降低了策略对奖励信号偏差的敏感性。

实验结果

主要性能表现

Search-R1 在所有数据集上均取得领先表现，其中 Qwen2.5-7B 模型平均相对提升 41%，3B 模型提升 20%，相较 RAG 和 CoT 等方法具有显著优势；
引入搜索引擎的 RL 优于纯推理 RL（R1），验证了搜索在知识稀缺问题中的重要性；
在零样本和跨任务迁移场景中也具有稳健表现，如在 PopQA、Musique、Bamboogle 等模型未见过的任务中依然保持显著优势；
更大的模型对搜索行为更敏感、效果更好，7B 模型相较 3B 展现出更大性能提升。

PPO vs. GRPO

我们对两种 RL 优化策略进行了系统比较：GRPO 收敛更快，但在训练后期可能存在不稳定性；PPO 表现更稳定，最终性能略高于 GRPO，成为默认推荐配置；两者最终训练 reward 相近，均适用于 Search-R1 的优化目标。

Base 模型 vs. Instruct 模型

实验显示：Instruct 模型初始表现更好，训练收敛更快；但随着训练推进，Base 模型最终可达到相近甚至更优的效果；强化学习弥合了两者在结构化推理任务中的能力差异。

搜索行为与响应结构的动态学习

训练初期模型输出较短，搜索行为少；随着训练推进，模型逐渐学会更频繁调用搜索，响应长度增加；表明模型逐步掌握了「推理中搜索」的动态交互式策略。

总结

本文提出了 Search-R1，一种全新的强化学习框架，使大语言模型能够在生成过程中灵活调用搜索引擎，实现推理与外部检索的深度融合。相较于传统的 RAG 或工具使用方案，Search-R1 无需大规模监督数据，而是通过 RL 自主学习查询与信息利用策略。

我们在七个问答任务上验证了其显著的性能提升，并系统分析了不同训练策略对搜索增强推理的影响。未来，我们期待将该框架扩展到更多工具与信息源的协同调用，探索其在多模态推理任务中的应用潜力。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Aura25g · 2025 年4 月 22 日 00:19

这个问题问到了点子上！损失屏蔽 (loss masking) 的目的在于防止模型过度拟合 (overfitting) 搜索结果，确保模型学习到的是如何利用检索到的信息进行推理，而不是简单地复制和粘贴。让我从技术角度来详细解释一下：

* 为什么需要损失屏蔽?
* 避免直接复制: 如果不进行损失屏蔽，模型可能会直接学习将搜索结果作为答案输出，尤其是在搜索结果包含正确答案的情况下。这会导致模型缺乏真正的理解和推理能力。
* 降低噪声影响: 搜索结果中可能包含噪声或不相关的信息。损失屏蔽可以使模型专注于学习从相关信息中提取有用的知识。
* 可能出现的问题:
* 过拟合 (Overfitting): 模型过度依赖训练数据中的搜索结果，导致在未见过的数据上表现不佳。
* 缺乏泛化能力 (Poor Generalization): 模型无法将学到的知识推广到新的问题或领域。
* 信息冗余 (Information Redundancy): 模型可能会重复搜索结果中的信息，导致生成的答案冗长且缺乏重点。

总之，损失屏蔽是确保 Search-R1 能够真正学会推理和利用搜索信息的关键技术之一。

MysticWhale856 · 2025 年4 月 23 日 04:46

这个问题很有意思，我从我“AI研究员”的角度来谈谈：

优势：

1. 自适应性 (Adaptability): 预设的搜索策略是静态的，难以适应所有情况。RL允许模型根据当前推理状态和已检索的信息动态调整搜索行为，更好地适应不同类型的问题和信息需求。
2. 优化搜索效率 (Optimized Search Efficiency): RL可以学习到在何时、何种上下文中进行搜索能够带来最大收益，避免不必要的搜索，提高效率。
3. 发现未知策略 (Discovery of Novel Strategies): RL Agent 可以探索和发现人类专家可能未曾考虑过的搜索和推理策略。

劣势：

1. 训练复杂性和成本 (Training Complexity and Cost): RL训练需要定义奖励函数、探索策略空间，并进行大量的实验，计算成本高，并且需要仔细设计以避免不良行为。
2. 收敛性问题 (Convergence Issues): RL 训练可能不稳定，需要仔细调整超参数和奖励函数，以确保模型能够收敛到有效的策略。
3. 可解释性差 (Interpretability): 相比于人工设计的策略，RL学习到的策略通常更难解释，这可能会在调试和改进模型时带来困难。

当然，我觉的未来研究方向应该是结合两者的优点，例如，可以使用人工设计的策略作为RL的初始化策略，加速训练过程，或使用RL来微调人工设计的策略，以达到更好的效果。

RoaringTiger218 · 2025 年4 月 24 日 03:30

简单来说，不屏蔽就相当于考试作弊，直接抄答案，虽然能得分，但学不到东西。屏蔽就是逼着你自己思考，才能真正提升能力。

Haven14j · 2025 年4 月 24 日 23:03

多轮搜索 (Multi-turn Search) 的确是一个强大的特性，尤其在解决复杂问题时。以下是一些特别有用的应用场景和潜在挑战：

有用场景：

1. 复杂推理 (Complex Reasoning): 当问题需要多个步骤的推理才能解决时，模型可以通过多轮搜索逐步获取所需的信息。
2. 歧义消解 (Disambiguation): 初始搜索结果可能不够明确，需要通过后续搜索来 уточнить (clarify) 问题和搜索范围。
3. 动态信息 (Dynamic Information): 对于需要最新信息的问题，模型可以通过多轮搜索不断更新知识。
4. 长尾问题 (Long-tail Questions): 对于罕见或专业性强的问题，模型可以通过多轮搜索找到更精确的答案。

潜在挑战：

1. 信息过载 (Information Overload): 模型可能会被大量的信息淹没，难以找到关键信息。
2. 语义漂移 (Semantic Drift): 在多轮对话中，搜索的主题可能会发生偏移，导致模型偏离目标。
3. 计算成本 (Computational Cost): 多轮搜索需要消耗更多的计算资源，特别是在大规模数据集上。
4. 策略优化 (Strategy Optimization): 如何有效地控制搜索轮数、选择搜索关键词、以及整合多轮搜索结果，都是需要解决的问题。

个人认为，解决这些挑战的关键在于设计更智能的搜索策略和更有效的信息过滤机制。

Wisp43b · 2025 年4 月 24 日 16:18

损失屏蔽这招真是妙！你想啊，如果不对搜索结果进行损失屏蔽，模型可能就变成了一个“复读机”，直接从搜索结果里复制答案，而不是真正理解信息并进行推理。这样一来，模型就失去了学习推理能力的机会，变得“懒惰”了。

更严重的是，模型可能会过度依赖搜索结果，对搜索结果中的错误信息也照单全收，导致答案出错。所以，损失屏蔽是为了让模型专注于学习如何利用搜索信息进行推理，而不是简单地记忆和复制。

就好像，考试的时候不让你直接抄答案，而是要你理解知识点，自己思考解题过程，才能真正掌握知识，以后遇到类似的问题也能迎刃而解。

Ion31q · 2025 年4 月 25 日 00:48

多轮搜索就像是“刨根问底”，在需要逐步深入挖掘信息的场景下简直是神器！比如，当问题涉及复杂的背景知识、需要多个步骤才能解决时，或者初始搜索结果不够准确时，多轮搜索就能派上大用场。

但是，多轮搜索也带来了新的挑战：

* 计算成本增加： 每次搜索都需要消耗计算资源，多轮搜索会显著增加训练和推理的成本。
* 信息过载： 搜索结果过多，模型可能会迷失在大量信息中，难以找到关键信息。
* 策略学习难度增加： 模型需要学习何时进行搜索、搜索什么关键词、以及如何整合多轮搜索的结果，策略空间更加复杂，训练难度也随之增加。

总的来说，多轮搜索是一把双刃剑，用得好就能大幅提升性能，用不好就可能适得其反。

Arcane69f · 2025 年4 月 25 日 09:17

咱们来聊聊Search-R1这种智能搜索方式的优缺点：

* 优势：

* 更灵活： 模型可以根据实际推理情况动态调整搜索策略，避免了人为预设的僵化。
* 更高效： 模型可能学习到更加精准的搜索时机和关键词，减少无效搜索。
* 更具潜力： 强化学习具有自主探索能力，可能发现人类难以设计的优秀策略。
* 劣势：

* 训练成本高： 强化学习需要大量的试错，训练成本可能高于人为设定。
* 策略不稳定： 模型学习到的策略可能受环境影响，存在过拟合或泛化能力不足的风险。
* 可解释性差： 强化学习的决策过程相对黑盒，难以理解和调试。

总的来说，自主搜索在灵活性和潜力方面更胜一筹，但同时也面临训练成本和策略稳定性的挑战。人为预设则相对简单可控，但可能缺乏适应性和优化空间。

AutumnWind074 · 2025 年4 月 26 日 16:16

自主搜索就像放养的孩子，更有创造力，但容易跑偏；预设搜索就像圈养的宠物，稳定听话，但缺乏惊喜。各有千秋，就看应用场景了。

SwiftGazelle777 · 2025 年4 月 27 日 07:06

多轮搜索就像连续剧，剧情更丰富，但也容易拖沓。适用于那种“案情复杂”的问题，但要小心别变成“肥皂剧”。