DeepRetrieval:利用强化学习优化搜索 Query,提升检索系统性能

UIUC团队开源DeepRetrieval,用强化学习优化搜索query,无需改变现有系统,仅用3B的LLM即可显著提升检索效果。突破点在于让模型学会「提问」。

原文标题:颠覆传统信息搜索,效果是之前SOTA的三倍?UIUC韩家炜、孙冀萌团队开源DeepRetrieval,让模型端到端地学会搜索!

原文作者:机器之心

冷月清谈:

UIUC韩家炜、孙冀萌团队开源的 DeepRetrieval,通过强化学习训练大型语言模型(LLM)优化原始查询,以提升现有检索系统的性能,该方法无需改变现有搜索系统,仅需3B参数的LLM,即可在不同检索任务中实现显著提升,尤其是在专业文献搜索和证据检索方面,DeepRetrieval 通过优化查询表达,融合专业术语和搜索引擎偏好的布尔结构,使检索结果获得显著改进,并超越了传统监督微调方法,实验结果表明,强化学习在搜索优化方面具有独特优势,能够发现人类难以设计的有效模式,并直接针对最终目标进行优化,此外,对模型思考链和查询长度的分析表明,适当的思考过程设计对构建高效的检索优化系统至关重要,能够在不增加模型参数的情况下显著提升性能。

怜星夜思:

1、DeepRetrieval 通过强化学习优化 query,但强化学习的训练成本通常较高。除了文中提到的PPO,大家觉得还有哪些更高效或更适合在线优化的强化学习算法可以应用到 query 优化上?
2、DeepRetrieval 在 Evidence-Seeking 任务中表现出色,能帮助搜索引擎找到支持特定事实性问题答案的证据。那么,如何评估 Evidence-Seeking 任务中检索到的文档证据的质量?除了文中提到的 Recall@K、NDCG@K,还有哪些更合适的评估指标或方法?
3、DeepRetrieval 通过优化 query 来提升检索效果,但会不会存在过度优化(over-optimization)的问题,导致 query 变得过于复杂,反而降低了用户的理解成本和搜索体验?如何平衡 query 优化的收益与用户体验?

原文内容


在信息检索系统中,搜索引擎的能力只是影响结果的一个方面,真正的瓶颈往往在于:用户的原始 query 本身不够好

尤其在专业搜索场景(如文献、数据库查询)中,用户往往无法用精确、完整的表达描述他们的需求。

那么问题来了:能不能教大模型优化原始 query 的表达方式,从而让已有检索系统的能力被最大化激发?

来自 UIUC 的 Jiawei Han 和 Jimeng Sun 团队的一项最新工作 DeepRetrieval 就是针对这个问题提出了系统性解法,只需 3B 的 LLM 即可实现 50 个点以上的提升。


  • 论文标题:DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning
  • 论文地址:https://arxiv.org/pdf/2503.00223
  • 开源代码:https://github.com/pat-jj/DeepRetrieval
  • 开源模型:https://huggingface.co/DeepRetrieval


一句话概括DeepRetrieval 是一个基于强化学习(RL)的 query 优化系统,训练 LLM 在不同检索任务中优化原始查询,以最大化真实系统的检索效果。

它不是训练一个新的 retriever,也不是让模型直接回答问题,而是:

在不改变现有搜索系统的前提下,通过优化原始 query,让「提问方式」变得更聪明,从而获取更好的结果。

更多有意义的讨论请读原文正文和附录的 Discussion 部分。


方法细节


方法要点

  • 输入:原始查询 q
  • 输出:改写后的查询 q′(自然语言、布尔表达式或 SQL)
  • 环境反馈:使用 q′ 去检索系统中查询 → 返回结果 → 与 groundtruth 对比,计算 reward,reward 为 task-specific 检索表现(如 Recall@K、NDCG@K、SQL accuracy)使用 PPO 进行训练,并加入格式奖励(format correctness)与 KL-regularization 保证训练稳定,优化目标如下:

图片

其中,π_ref 是参考策略(reference policy),通常指的是在强化学习开始之前的初始模型。β 是一个合适的 KL 惩罚系数,用于控制正则化的强度。KL 散度项的作用是惩罚当前策略与参考策略之间的过大偏离,从而在强化学习训练过程中保证策略更新的稳定性

实验结果

真实搜索引擎的文献搜索


首先在真实的搜索引擎上进行实验,文中用到了专业搜索引擎 PubMed 和 ClinicalTrials.gov。无需改动搜索引擎或其它任何检索器,仅通过端到端地优化 query 表达,DeepRetrieval 就可以让结果获得 10 倍提升,远超各个商业大模型和之前的 SOTA 方法 LEADS(蒸馏 + SFT 方法)。

Evidence-Seeking 检索:通用搜索引擎的革新潜力

DeepRetrieval 在 Evidence-Seeking 检索任务上的优异表现令人瞩目。如表 1 所示,结合简单 BM25,这个仅有 3B 参数的模型在 SQuAD、TriviaQA 和 NQ 数据集上超越了 GPT-4o 和 Claude-3.5 等大型商业模型。


Evidence-Seeking 任务的核心是找到支持特定事实性问题答案的确切文档证据,在通用搜索引擎环境中,这一能力尤为关键。作者团队指出,将 DeepRetrieval 应用到 Google、Bing 等通用搜索引擎的 Evidence-Seeking 场景将带来显著优势:


  • 精准定位事实文档:通用搜索引擎包含海量信息,用户难以构建能精确定位证据段落的查询。DeepRetrieval 可将简单问题转化为包含关键术语、同义词和限定符的复杂查询,显著提高找到权威证据的概率。


  • 克服知识时效性限制:模型能够将「2024 年奥运会金牌榜前三名」等超出 LLM 知识截止日期的问题转化为精确搜索表达,使检索系统能够找到最新事实证据。


  • 多源验证能力:通过优化查询帮助搜索引擎找到多个独立来源的事实证据,从而交叉验证信息准确性,这是纯 LLM 问答无法实现的关键优势。


作者团队表示会将这部分的延伸作为 DeepRetrieval 未来主要的探索方向之一


Classic IR(Sparse / Dense)


在 BM25 和 dense retriever 下,DeepRetrieval 提供了平均 5~10 点 NDCG 提升,并且:BM25 + DeepRetrieval 和多数 dense baseline 水平相当

结合极快的检索速度(BM25 vs dense:352s vs 12,232s),展示了一个现实可部署、性能不俗的高效方案。

SQL 检索任务

在 SQL 检索任务中,DeepRetrieval 摆脱了对 groundtruth SQL 的依赖,直接利用生成 SQL 的执行成功率优化模型,通过生成更精准的 SQL 语句,使得模型在 Spider、BIRD 等数据集上的执行正确率均超过对比模型(包括 GPT-4o 和基于 SFT 的大模型)。


探索胜于模仿:RL 为何超越 SFT


DeepRetrieval 的实验揭示了强化学习(RL)在搜索优化上相比监督微调(SFT)的独特优势。实验数据令人信服:在文献搜索上,RL 方法的 DeepRetrieval(65.07%)超过 SFT 方法 LEADS(24.68%)近三倍;在 SQL 任务上,从零开始的 RL 训练(无需任何 gold SQL 语句的监督)也优于使用 GPT-4o 蒸馏数据的 SFT 模型。


这种显著差异源于两种方法的本质区别:SFT 是「模仿学习」,试图复制参考查询,而 RL 是「直接优化」,通过环境反馈学习最优查询策略。SFT 方法的局限在于参考查询本身可能不是最优的,即使是人类专家或大模型也难以直观设计出最适合特定搜索引擎的查询表达。


论文中的案例分析进一步证实了这一点。例如,在 PubMed 搜索中,DeepRetrieval 生成的查询如「((DDAVP) AND (Perioperative Procedures OR Blood Transfusion OR Desmopressin OR Anticoagulant)) AND (Randomized Controlled Trial)」融合了医学领域的专业术语和 PubMed 搜索引擎偏好的布尔结构,这种组合很难通过简单模仿预定义的查询模板获得。


相反,RL 允许模型通过尝试与错误来探索查询空间,发现人类甚至未考虑的有效模式,并直接针对最终目标(如 Recall 或执行准确率)进行优化。这使 DeepRetrieval 能够生成高度适合特定搜索引擎特性的查询,适应不同检索环境的独特需求。


这一发现具有重要启示:在追求最佳检索性能时,让模型通过反馈学习如何与检索系统「对话」,比简单模仿既定模式更为有效,这也解释了为何参数量较小的 DeepRetrieval 能在多项任务上超越拥有更多参数的商业模型。


模型 Think&Query 长度分析



通过分析 DeepRetrieval 在训练过程中模型思考链和查询长度的变化,可以发现以下关键洞见


思考链长度演变


与「aha moment」相反,DeepRetrieval 的思考链长度随训练呈下降趋势,而非增长。这与 DeepSeek-R1 报告的「aha moment」现象形成鲜明对比,后者的思考链会随训练进展变得更长。图 4(a) 清晰地展示了 Qwen 模型思考链从初始约 150 tokens 逐渐降至稳定的 50 tokens 左右,而 Llama 模型的思考链更短,甚至降至接近 25 tokens。


查询长度特征


实验揭示了思考过程对查询长度的显著影响。无思考过程的模型容易陷入次优解,如图 4(b) 所示,Qwen 无思考版本生成极长查询(500-600 tokens),表现出过度扩展的倾向。相比之下,有思考过程的模型保持更为适中的查询长度,Qwen 约 150 tokens,Llama 约 100 tokens。有趣的是,不同模型采用不同长度策略,但能达到相似性能,表明查询生成存在多样有效路径。


性能与思考过程关系


思考过程对检索性能有决定性影响。图 4(c) 表明,具备思考能力的模型性能显著提升,有思考的模型 Recall@3K 能达到 65%,而无思考模型仅 50% 左右。此外,训练效率也明显提高,有思考的模型更快达到高性能并保持稳定。论文附录 D.1 的分析表明,思考过程帮助模型避免简单地通过增加查询长度和重复术语来提升性能,而是引导模型学习更有效的语义组织策略。


关键结论


DeepRetrieval 展示了思考过程在信息检索中扮演「探索促进器」的关键角色。与数学或编程问题不同,检索任务不需要像「aha moment」那样的突然顿悟现象。相反,检索优化遵循「先详细思考,后逐渐精简」的模式,模型在内化有效策略后,不再需要冗长思考。这表明检索任务中思考链的主要功能是探索,一旦策略稳定便可简化。


这种分析表明,适当的思考过程设计对于构建高效的检索优化系统至关重要,能够在不增加模型参数的情况下显著提升性能,为未来的 LLM 应用于搜索任务提供了重要设计思路。


结论

DeepRetrieval 的贡献在于揭示了一个常被忽视但至关重要的事实:检索效果的上限不仅在于检索器本身,更在于如何「提问」

通过强化学习教 LLM 改写原始查询,DeepRetrieval 不仅摆脱了对人工标注数据和大模型蒸馏的依赖,还在多个任务上证明了改写 query 的巨大潜力。这项工作为搜索与信息检索领域带来了新的思考:未来的检索优化,不仅是提升引擎算法,更是如何让用户「问得更好」,从而激发出检索系统的全部潜力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

除了传统的指标,还可以借鉴 QA 领域的评估方法,比如使用 BERTScore 或 BLEURT 来评估生成答案与文档内容的相关性。这些模型可以更准确地捕捉语义信息,避免仅仅依靠关键词匹配带来的偏差。

我觉得评估证据质量的关键在于判断文档是否真的支持问题的答案,以及支持的程度有多大。可以考虑使用像 F1-score 这样的指标,同时结合人工标注,来评估模型找到的证据与ground truth之间的重合度。

我觉得这是一个很关键的问题。过度优化确实可能导致 query 过于冗长或专业化,让普通用户难以理解。可以考虑在优化目标中加入用户体验的因素,比如query的长度、复杂度等,对过于复杂的 query 进行惩罚。

可以尝试个性化的 query 优化策略。对于专业用户,可以允许模型生成更复杂的 query,以提高检索精度;而对于普通用户,则应该生成更简洁、易懂的 query,以提高易用性。这需要对用户画像进行分析,了解用户的搜索习惯和知识背景。

我更倾向于考虑模仿学习(Imitation Learning)的方法。毕竟,高质量的搜索 Query 往往有一些共性,可以先用专家数据(比如人工构造的 Query)训练一个初始模型,然后再用强化学习进行微调。这样做既能降低训练成本,又能保证模型的性能下限。

我觉得可以尝试使用一些off-policy的强化学习算法,比如DDPG或者SAC。PPO虽然稳定,但是on-policy的特性导致每次更新都需要重新采样,效率相对较低。而off-policy算法可以利用历史数据进行学习,这样就能更充分地利用已有的query和反馈数据,提高训练效率。

从工程角度来看,我觉得 A/B 测试结合简单的策略梯度方法可能更实用。直接将优化后的 query 上线进行 A/B 测试,根据用户的点击、转化等指标来调整 query 优化策略。虽然精度可能不如复杂的强化学习算法,但实现简单、效果直观,更易于落地。

A/B 测试是必不可少的。将优化后的 query 和原始 query 同时展示给用户,观察用户的点击、停留时间等行为,来判断优化是否 действительно 提升了用户体验。如果用户更喜欢原始 query,那就说明优化方向可能出现了问题。

可以考虑引入信任度评估机制。不同的网站或信息源具有不同的可信度,如果模型能够找到来自权威机构或专业领域的证据,那么这个证据的质量就更高。可以根据来源的可信度对检索结果进行加权。