REDSearcher:低成本可扩展的深度搜索Agent,30B参数超越GPT-5

REDSearcher 提出一种低成本可扩展的深度搜索Agent训练框架,其30B参数模型在深度搜索任务上超越GPT-5,为AI自主探索提供新路径。

原文标题:30B参数超越GPT-5!REDSearcher让「深度搜索Agent」做到低成本可扩展!

原文作者:机器之心

冷月清谈:

REDSearcher 团队提出了一套低成本、可扩展的训练框架,旨在解决深度搜索Agent在训练过程中面临的数据稀缺、能力鸿沟和环境缺失三大瓶颈。该框架通过定义拓扑复杂度和信息分散度来衡量搜索问题的难度,并采用graph-to-text流程大规模自动化合成高难度问题。同时,它还通过模态注入实现从文本图到多模态图的扩展,并采用两阶段Mid-Training框架强化智能体的原子能力和组合能力。最后,通过SFT+Agentic RL双阶段增强,REDSearcher 实现了在真实环境中的持续进化。实验结果表明,REDSearcher 在深度搜索任务上取得了开源模型SoTA,并超越了 GPT-5 等一众闭源模型,为AI系统在开放环境下的自主探索提供了可复现的训练路径。

怜星夜思:

1、文章中提到REDSearcher通过定义拓扑复杂度和信息分散度来衡量搜索问题的难度,那么在实际应用中,我们应该如何量化这两个指标,才能更好地指导Agent的训练?
2、REDSearcher使用了Mid-Training来强化Agent的能力,那么这种Mid-Training和传统的Fine-tuning有什么区别?在什么情况下我们应该选择Mid-Training而不是Fine-tuning?
3、文章提到REDSearcher通过SFT+Agentic RL双阶段增强Agent的能力,其中Agentic RL是如何保证数据质量的?这种Agent-as-Verifier的方法有什么优势和劣势?

原文内容


「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」


这并不是一道靠记忆就能解答的题。Agent 必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。


2025 年被视为 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的 Agent 面临三大瓶颈:


  • 数据稀缺高难度长程问答任务极度依赖人工标注,成本高昂。因此,我们需要一条能够自动化合成高难度问题的链路。


  • 能力鸿沟预训练模型虽知识储备丰富,却缺乏与真实环境进行长程交互的能力。这需要通过低成本的中训练阶段来弥补鸿沟。


  • 环境缺失在真实环境中训练成本高且不可控。一个功能等价的模拟环境,可以在本地复现搜索过程,从而支持算法的快速迭代。


为突破瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架,最终使用 30B 规格模型在深度搜索任务上取得开源模型 SoTA,并且超越了 GPT-5 等一众闭源模型。



  • 论文标题:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

  • 项目主页https://github.com/RedSearchAgent/REDSearcher

  • 论文链接:https://arxiv.org/abs/2602.14234

  • Collections:https://huggingface.co/collections/Zchu/redsearcher



一、什么是「足够难」的深度搜索题目?


什么是困难的搜索题目?推理跳数往往只是表象,应该追求的是问题的结构性困难。


1. 拓扑复杂度:用树宽衡量「结构性困难」

复杂任务中,信息分叉交织形成回环。Agent 需同时记忆多路推论,时刻验证一致性,并随时准备整体回溯,这便是深度搜索的核心挑战。为此,团队引入图论中的 TreeWidth(树宽)概念来刻画这种「结构性困难」。以下通过三种结构问题进行对比:



  • 线性/树状(树宽=1):典型链式推理,只需按部就班检索便可解答。


  • 菱形/回环(树宽=2):出现分叉与重汇合,要求 Agent 维持多路假设的一致性,并在矛盾时进行回溯。


  • 强耦合子图(树宽≥3):形成网状约束,需要将零散证据拼合成一致的整体,迫使模型进行全局验证和回溯。


2. 信息分散度:杜绝搜索「捷径」


即使问题的拓扑结构很复杂,如果存在一个网页恰好包含所有关键事实,模型一次检索就能抄走答案。为此,团队引入「信息分散度」,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段(注:原文为“争取片段”,疑为笔误,此处已作修正)在互联网上的分布就更加零散,这迫使 Agent 与外部环境进行更多轮次的交互从而获取更加充分的信息。


二、大规模「自动化」合成

「高难度」的深度搜索问题


基于双约束复杂度标准,我们采用 graph-to-text 流程合成数据:先生成符合树宽与分散度的推理图,再将其翻译为自然语言问题,并经过多层校验确保「高难度、可解且答案唯一」。同时,我们设计了基于「结构化信息」与「网络浏览」两套图构造流程,以覆盖不同搜索环境。在合成问题中,我们采取:


  • 拓扑结构增强:直接生成高树宽图的成功率较低。为此,我们引入大模型智能体对初始依赖图进行「拓扑加密」,通过添加环状与交错约束,显著提升结构复杂度,迭代地提高问题难度。


  • 工具增强的问题合成:在问题构造阶段,我们主动植入工具调用需求。通过将关键实体替换为隐含工具依赖的表达(如地名→地图服务、文章→谷歌学术),使工具调用成为解题前置条件。



三、多模态扩展:从「文本图」到「多模态图」


在文本合成基础上,REDSearcher 通过模态注入将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。


  • 视觉属性锚定用图像描述替换节点的文本属性,迫使模型先识别图像再关联知识。

  • 跨模态依赖设置视觉不可替代约束,使图像搜索成为推理必经之路,而非冗余信息。

  • 视觉语义抽象使用抽象指代替代直接命名,迫使模型识别图像内容后再进行搜索。

  • 模态灵活插入视觉证据可插入推理链任意位置,既可早期设置瓶颈增加难度,也可后期引入验证,实现难度精细控制。


通过这套轻量级扩展,REDSearcher 可高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。


四、「成本可控」Mid-Training 强化智能体能力


预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言建模到智能体的过渡。



原子能力建设

针对深度搜索重要的两个基础能力优化:


  • 意图锚定从含噪的观测中精准抓取关键证据,过滤噪声,减少幻觉与推理漂移。

  • 层次化规划将复杂目标拆解为可立即求解的具体目标与需逐步消解的不确定目标,确保规划可落地。


组合能力建设


通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:


  • 工具调用能力通过合成工具协议与本地模拟环境交互,使模型在 ReACT 范式下掌握基础与外界环境交互能力。

  • 长程交互能力在「功能一致」模拟环境中,让 Agent 进行长程的环境交互,强化规划能力与目标一致性。


五、后训练持续进化:

不只是「搜得多」,更要「搜得准」


后训练采取 SFT + Agentic RL 双阶段增强:


  • 在真实环境中交互,通过多重过滤获取长程高质量轨迹,教会模型深度搜索行为。


  • 在真实搜索环境中进一步优化策略,关键设计包括:

    • 低成本验证:构建「功能等价」的本地模拟环境,保持 API 一致、证据完备且含噪声,加速实验迭代。

    • 数据质量保障:针对合成问题中存在的答案错误、一题多解现象,采用 Agent-as-Verifier 对强化学习问题集进行校验,避免数据污染影响训练稳定性。


团队观察到了效率与性能同步提升的现象:随着训练进行,模型的平均交互轮次不断下降,但准确率持续提升。这表明 REDSearcher 并非简单的「暴力搜索」,而是学会了更精准的信息获取策略,主动减少无效调用,形成「越训越聪明」的良性循环。


六、实验结果


在多项深度搜索权威基准上,REDSearcher 在开源模型中取得了优异的表现:


  • REDSearcher 在同规模开源模型中取得了 SoTA 水平,并且超过了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一众闭源先进模型(*为带有上下文管理的性能)。


  • REDSearcher-MM 在多模态搜索基准中相比同规格模型取得了 SoTA 水平,并且性能超过 Gemini-2.5-pro,在部分基准上取得了接近 Gemini-3-pro 的性能。



结语


REDSearcher 的核心在于系统性设计:从图论角度定义深度搜索任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使 AI 系统从静态知识查询走向开放环境下的自主探索、验证与信息整合。


作者简介


初征,哈工大社会计算与信息检索中心在读博士生,由刘铭教授和秦兵教授共同指导,研究方向是智能体、大语言模型、复杂推理、深度搜索。


王枭,就职于小红书 Hi Lab,负责Search Agent,主要关注长程推理、智能体、数据合成、强化学习。


Jack Hong,小红书 Hi Lab 团队算法实习生,主要研究方向是多模态大模型、Agent、计算机视觉等。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

从学术角度来看,多模态搜索Agent的价值在于它能够更好地模拟人类的认知过程。人类在理解世界时,总是会综合利用视觉、听觉、触觉等多种感官信息。多模态搜索Agent的出现,使得AI系统也能像人类一样,从多个维度理解信息,从而做出更准确、更智能的决策。这对于推动认知计算和人工智能的发展具有重要意义。

嘿嘿,我觉得最有趣的数据清洗方法,是让Agent自己生成对抗样本!你可以让Agent尝试欺骗Verifier,如果它成功了,就说明Verifier存在漏洞,需要改进。这种对抗训练的方法,可以有效地提高Verifier的鲁棒性和泛化能力。当然,这种方法也需要小心使用,否则可能会导致Agent陷入无休止的对抗循环。

Agent-as-Verifier这种方法,我觉得在一定程度上是靠谱的,但肯定不是万无一失。它本质上是用一个Agent来评估另一个Agent的表现,如果Verifier本身能力不足,或者评估标准不合理,就可能出现误判。更有效的方法?可以考虑引入人工审核,或者使用多种不同的Verifier进行交叉验证,提高数据质量的可靠性。

我觉着吧,多模态搜索Agent最有趣的潜力在于它能处理那些“只可意会,不可言传”的信息。比如,你想找一个风景优美的旅游地,你可能没法准确描述你想要的景色,但你可以上传一张你喜欢的风景照,Agent就能帮你找到类似的地方。这种模糊搜索的能力,在很多创意领域都有很大的应用潜力,比如艺术设计、服装搭配等等。

成本可控的Mid-Training,不仅能省钱,还能避免过度拟合!想想看,如果一开始就用大量真实数据训练,模型很容易学到数据中的噪声,导致泛化能力下降。而Mid-Training 相当于一个“预热”阶段,让模型先掌握一些基本技能,再在真实环境中进行微调,这样就能提高模型的鲁棒性和泛化能力。当然,局限性也很明显,就是需要精心设计Mid-Training的任务,否则效果可能适得其反。

从技术角度分析,Mid-Training 实际上是一种迁移学习的策略。它将预训练模型学到的通用知识迁移到特定任务中,从而减少了对特定任务数据的依赖。这种方法可以有效地解决数据稀缺问题,尤其是在一些冷门领域。然而,迁移学习的效果很大程度上取决于源领域和目标领域之间的相关性。如果相关性不高,迁移学习可能无法带来显著的性能提升,甚至可能出现负迁移现象。

其实我在想,多模态信息会不会引入更多的噪声?图像识别本身就容易出错,如果Agent过度依赖图像信息,会不会反而降低了搜索的准确性?所以,我认为在多模态融合的过程中,需要谨慎地评估不同模态信息的可靠性,并根据可靠性来调整它们的权重。千万不要为了融合而融合,否则可能会适得其反。

保证难度,答案唯一,还要可解,这确实是数据合成的关键。REDSearcher 的做法是先生成推理图,再翻译成自然语言。那么,保证推理图的结构复杂性是保证难度的关键。保证答案唯一,可能需要在推理图的生成过程中引入一些约束,比如限制某些节点之间的连接方式,或者在问题描述中加入一些限定条件。而可解性,则需要在生成问题后进行验证,看看是否能够通过已有的知识库或者搜索引擎找到唯一解。如果找不到,就需要对问题进行修改,或者重新生成推理图。

我觉得可以借鉴游戏设计的思路。好的游戏会设置不同的难度等级,并提供足够的提示和引导。在训练Agent时,可以提供一些辅助信息,比如中间步骤的提示或者相关的知识链接,帮助Agent理解问题的结构和解题思路。另外,也可以引入一些奖励机制,鼓励Agent进行探索和尝试。

多模态融合就像给Agent装上了“眼睛”和“耳朵”,让它能够更全面地感知世界。这种融合不仅可以提升Agent的准确率,还可以增强其泛化能力。例如,即使Agent没有见过某个特定的场景,也可以通过视觉信息来推断出相关的知识。未来,可以将多模态信息作为Agent的记忆,让它可以根据不同的情境进行灵活的推理。

多模态融合的想象空间很大!现在主要是文本和图像,以后可以加入音频、视频,甚至触觉信息。想象一下,一个智能客服,不仅能看懂你发来的截图,还能听懂你的语气,甚至能感受到你操作手机时的震动。这种多感官的交互,才能真正做到“懂你所想”。还可以探索一些更深层次的融合方式,比如用视觉信息引导文本生成,或者用文本信息解释视觉内容。

这就好比教小孩学走路,一开始肯定不能直接让他跑。拓扑结构增强和tooling 增强都是为了增加问题的复杂度,但也要注意适度,否则容易导致智能体直接崩溃。难度设置应该考虑到智能体的现有能力和学习速度,循序渐进才是王道。可以考虑用一些指标来衡量智能体的学习状态,比如成功率、步数等等,根据这些指标动态调整难度。

从图论角度看,树宽越高,意味着问题中包含的环状结构和强耦合子图越多,模型需要进行全局验证和回溯的频率就越高。这就像解一道复杂的填字游戏,你不仅要填对当前的格子,还要保证它与周围已填写的格子一致。所以,理解树宽有助于我们评估Agent在复杂信息环境中保持一致性的能力。

“拓扑加密”听起来挺玄乎,估计就是用大模型往初始的依赖图里加一些环状或者交错的约束,让图变得更复杂、更绕。优点是能有效提高问题的难度,让 Agent 没那么容易找到答案。局限性可能是引入了一些无效信息,导致 Agent 做无用功,或者让问题变得过于人为,脱离实际。

从数据角度看,SFT 使用的是高质量的 supervised 数据,可以学习到人类专家的知识和经验。而 RL 则是通过与环境交互来获取数据,这种数据虽然更真实,但也很noisy。因此,SFT 可以看作是“知识蒸馏”,RL 可以看作是“实践出真知”。把它们结合起来,可以取长补短,训练出更强大的 Agent。

我觉得在教育领域很有潜力。设想一下,学生可以通过上传一张动植物的图片,Agent 就能自动搜索相关的知识,并以图文并茂的形式呈现出来。这比传统的填鸭式教学有趣多了。当然,这需要解决如何让Agent理解学生的提问意图,以及如何生成高质量的教学内容的问题。

从技术角度看,REDSearcher 在处理多模态信息融合以及更复杂的推理链方面仍有提升空间。目前主要还是依赖图结构来合成数据,但在真实场景中,信息的组织形式更加多样化。未来的发展方向,个人认为会朝着更强的自适应性、更高效的知识整合以及更自然的人机交互发展。另外,成本控制也是关键,毕竟算力也是钱啊!如何在保证性能的同时降低成本,也是一个重要的研究方向。

有没有人跟我一样,第一时间想到的是“鉴黄”?咳咳…我是说,多模态Agent在内容审核方面大有可为。它可以结合文本和图像信息,更准确地识别不良信息,维护网络环境。伦理挑战当然也存在,如何避免误判,保护用户的隐私,这些都需要认真考虑。

我想到的是类似于社交网络那种结构,每个人或者节点都可能和其他很多人有关联,但是关联的强度又不一样,有强关系,有弱关系。Agent在这种网络里搜索信息,需要区分信息的来源和可信度,这本身就是一个挑战。