WebSailor:通义开源Agent如何在复杂网页任务中实现超人推理与多榜夺魁

通义WebSailor通过创新数据与高效训练,使开源Web Agent在高难度信息检索任务上实现突破。

原文标题:开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp

原文作者:机器之心

冷月清谈:

在信息爆炸的时代,传统搜索引擎难以满足深层次、多步骤信息获取的需求,尤其是在医学研究、科技创新等领域。当前开源Web Agent在BrowseComp这类极高不确定性任务上表现不佳,准确率几乎为零。为此,阿里巴巴通义实验室RAG团队推出了WebSailor,旨在弥补这一差距,使开源模型在超复杂信息检索任务上实现突破。WebSailor的核心成功在于一套系统性的技术创新:

首先,WebSailor针对高不确定性、高复杂度的任务构建了名为SailorFog-QA的数据集。它通过模拟随机游走在真实网页环境中构建知识图谱,并对问题进行信息模糊化处理,从而生成Level 3难度的任务。这克服了过去开源数据集只涉及低或中等不确定性问题的局限,迫使模型学习更灵活的推理策略。

其次,团队创新性地提出了推理轨迹重构方法。尽管强大的大型推理模型(LRM)能解决复杂问题,但其思考过程往往冗长。WebSailor只保留LRM成功解题的“行动-观察”序列,然后利用另一个LLM反向生成简洁、清晰的推理过程,提供了高质量的监督信号。

最后,WebSailor采用了两阶段训练方案。第一阶段是使用高质量轨迹进行拒绝采样微调(RFT),为模型进行冷启动,教会其基础工具使用规范和推理范式。第二阶段则引入了高效的强化学习算法DUPO(Duplicating Sampling Policy Optimization),通过“训练前过滤”和“训练中复制”策略,显著提升了Agent的强化学习效率,并设计了严格的复合奖励机制抑制奖励投机。

实验结果显示,WebSailor在BrowseComp、BrowseComp-zh等四个高难度Agent基准上全面超越现有开源模型和Agent,甚至接近或超越部分闭源模型,证明了在体现复杂且难以简化不确定性的数据上进行训练,能够赋予智能体强大且普适的推理策略,性能提升的关键在于独特的训练范式而非单纯依赖模型规模。

怜星夜思:

1、文章里提到WebSailor攻克了Level 3这种高不确定性、高消解难度的任务。大家觉得,在未来,除了信息检索,这种能在极高不确定性下进行多步推理的Agent还会在哪些领域大放异彩?我们人类在这些领域里扮演的角色又会有什么变化呢?
2、文章里提到了WebSailor训练的通用蓝图是“高难度任务合成 → 精炼逻辑监督 → 高效强化学习”。大家觉得这个蓝图对于其他AI领域(比如机器人控制、艺术创作辅助、甚至教育个性化学习)的Agent训练有什么启发?它有哪些环节可能在不同领域遇到特别的挑战呢?
3、WebSailor的出现,让开源Agent与顶尖闭源系统的差距大大缩小了。大家觉得,在不远的将来,开源Agent是否有可能在所有方面超越闭源Agent?有哪些关键因素或趋势会影响这个竞争格局呢?

原文内容


一、背景:开源 Web Agent 在艰难任务中的困境与突破


在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都需要深入的信息挖掘和多步推理。然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触及了人类认知的极限。为此,研究者们希望打造能够自主思考、自主决策的智能体,帮助我们应对这些复杂的信息检索任务。


当前开源 Web Agent 在极端复杂任务上表现不佳。OpenAI 提出的 DeepResearch 等闭源系统已经在极复杂的信息检索基准上展示了超越人类的能力,如在 BrowseComp 任务上取得了 “超人类” 水平的成绩。相形之下,开源模型在这些任务上几乎束手无策:例如在 BrowseComp-en 这样的复杂基准上,已有开源 LLM 与 Web Agent 的准确率几乎为零。这意味着现有训练范式尚未赋予开源模型应对极高不确定性任务所需的推理模式。简言之,开源智能体一直受困于无法有效降低极端不确定性。


BrowseComp 有多难?下面是一个例子:


有一部 HBO 剧集在 2018 年至 2022 年期间(含)播出。在第一季第七集中,片头曲来自一个 2012 年在非洲兴起的音乐流派。一篇 2022 年的文章提到,这首歌的一位创作者 A 在 11 年级时辍学。另一篇 2022 年的文章说,这首歌另一位创作者 B 在高中时曾踢过足球,同时在其他地方当 DJ。创作者 A 是谁?


其难度不在于找到一个事实,而在于通过一系列分散、间接的线索,经过多步推理和复杂过滤,最终构建出一个特定事实的能力。它考验的不是检索能力,而是推理、规划和信息整合的综合能力,这使其成为衡量 agent 高级认知和自主研究能力的黄金标准。


面对这一困境,阿里巴巴通义实验室 RAG 团队推出了最新研究成果 WebSailor。WebSailor 带来了完整的后训练方案来弥补这一差距,使开源模型在超复杂的信息检索任务上实现突破。通过创新的数据构造和训练方法,WebSailor 成功赋予开源 Web Agent 以超人类推理能力,在 BrowseComp 等长期未解的挑战上取得了前所未有的成绩,大幅度缩小了开源模型与顶级封闭系统之间的差距。




  • 论文标题:

    WebSailor: Navigating Super-human Reasoning for Web Agent

  • 论文链接:

    https://arxiv.org/abs/2507.02592

  • 代码仓库:

    https://github.com/Alibaba-NLP/WebAgent


二、技术创新:从高不确定性任务构建到高效训练范式


数据构造及推理轨迹获取


WebSailor 的成功源于一套系统性的技术创新。其核心在于既要 “挖井造水”(构建足够困难的训练任务),又要 “授之以渔”(设计高效的训练策略)。具体包括:构建高不确定性、高复杂度的任务数据集 SailorFog-QA,重构推理轨迹来提升监督信号质量,结合冷启动的 RFT 策略和高效的强化学习算法 DUPO,从而打造出一个强大的 post-training。


开源模型之所以难以掌握 BrowseComp 这类极难任务,一个重要原因在于训练数据的不确定性不够或是不确定性易于消解,WebSailor 团队首先对信息检索类任务进行了分类,可以分为三个 level:


  • Level-1:低不确定性且易于消解的任务。这类任务的不确定性很低,且容易被消除。例如,可以利用模型自身的内部知识或通过单次、直接的网页搜索就能解答的问题。

  • Level-2:初始不确定性高但有明确解决路径的任务。这类任务(例如 Multi-hop QA)虽然初始不确定性较高,但遵循一条清晰的解决路径。即使步骤繁多,任务中的各个实体也由明确的逻辑关联,因此可以通过一系列结构化的行动来降低不确定性。

  • Level-3:高不确定性与高消解难度的任务(本文的研究重点)。此类问题兼具高度的不确定性与极高的消解难度。其内部实体以复杂、涌现的方式相互耦合,不存在预设的推理路径。要解决这些问题,模型必须进行创造性的探索,并形成难以人工预先指定的新颖推理范式。



过去的大多数开源数据集只涉及低不确定性或结构清晰的多跳问答,即所谓 Level 1 或 Level 2 难度的问题。模型从未真正见过 Level 3 难度的挑战,即那些充满不确定性、无现成解题路径、需要复杂组合推理的问题。为此,WebSailor 团队专门构建了 SailorFog-QA 数据集,用于大幅提升模型对高不确定性任务的适应能力。


首先通过模拟随机游走(random walk)的方式,在真实网页环境中构建知识图谱。


  • 起点选择: 为保证问题的挑战性,从维基数据(Wikidata)等知识库中选取信息较少或关联模糊的实体(fuzzy entity)作为图谱的初始节点。

  • 随机扩展: 以该实体为起点,在互联网上进行信息抓取,并从中提取新的相关实体及它们之间的关系,以随机的方式扩展图谱。

  • 结构特点: 该过程生成的是一个高度非线性的知识网络。与传统多跳推理任务中常见的线性链式结构不同,这种随机生成的图结构不存在预定义的、清晰的解答路径。它为智能体构造了一个复杂的、需要探索的信息环境,迫使其发展出更灵活的推理策略。


在构建了复杂的知识图谱后,通过以下步骤生成问答对:


  • 子图采样: 从知识图谱中采样子图,并依据子图中的实体与关系设计问题和答案。这些问题通常涉及多个交叉的实体和关系。

  • 信息模糊化(Obfuscation): 为了进一步提升任务难度,我们对问题中的关键信息进行了刻意的模糊化处理。例如:将精确的时间(如 “1997 年”)处理为模糊的时间段(如 “20 世纪末”),将具体的地点(如铁岭市)模糊为更大的范围(东北某地级市),使用定性描述替代定量数据(如 “市场占有率不到 1%”)。这种信息模糊化策略显著增加了问题的初始不确定性,使模型无法依赖简单的关键词匹配或直接查找来获得答案,而必须进行深度的推理、比较和信息整合。


基于子图采样的 SailorFog-QA 具有如下优点:


源于真实世界:所有数据均基于真实互联网,确保模型训练环境与实际应用场景一致,避免了在来源单一的数据(例如仅从 Wikipedia 获取信息)上训练的模型到真实环境中泛化性差。


推理模式多样:子图的复杂拓扑结构自然催生了需要组合、比较、演绎等多种高级推理能力的问题,可以保证模型获取不同的 reasoning pattern。


高度可扩展:图的可采样子图数与图的规模是非线性关系,而构图成本与图的规模是线性关系,这使得这种方法能以很低的成本 scaling。


有了高不确定性的 level-3 QA,要进行 RFT 的冷启动还需要高质量 trajectory,虽然开源模型在这些复杂问题上正确率不高,但通过拒绝采样,依然可以获得足够的冷启动数据。可以借助 QWQ、DeepSeek-R1 等强大的开源推理模型(LRM)来生成解题轨迹,但直接模仿它们却有很多问题。一方面这些 LRM 的思维过程往往带有强烈的风格,冗长且程式化。直接拟合会限制模型自身的灵活性和自我探索(self-exploration)能力;另一方面高度复杂的 agent 任务甚至需要几十轮的工具调用,过长的推理会导致模型受限于其 context limit。为此,WebSailor 提出了一种创新的推理重构方法,只保留这些 LRM 成功解题的 “行动 - 观察” 序列(Action-Observation Trace),这相当于保留了 “做什么” 和 “看到了什么” 的客观事实。抛弃 LRM 原始的、冗长的思考过程(Thought)。利用另一个 LLM,为每一步行动(Action)和观察(Observation)反向生成一个简洁、清晰、直指目标的 reasoning process,这样得到的训练数据,既包含了正确的推理逻辑,又去除了风格污染和冗余信息,形成了一个干净、高效的监督信号。


冷启动与强化学习:两阶段训练


WebSailor 的训练分为两个阶段。


第一阶段:RFT 冷启动。 俗话说 “万事开头难” 对于需要几十步才能解决的复杂任务,让一个非推理模型从零开始通过强化学习(RL)探索,会面临指令遵循能力不足(格式错误多)和奖励(reward)过于稀疏的问题。因此,我们先用上一步生成的几千条高质量轨迹进行拒绝采样微调(RFT),给模型冷启动。这一步一方面教会模型基本的工具使用规范和模仿较强的 LRM 在 ReAct 框架下的一些推理范式。


第二阶段:DUPO 强化学习。 在模型具备基础能力后,我们引入了的高效强化学习算法 ——DUPO(Duplicating Sampling Policy Optimization)来进一步提升模型的泛化能力和采样效率(sampling efficiency)。Agent 的 RL 训练因涉及与环境的大量交互而异常缓慢,DUPO 通过双重动态采样策略解决了这一痛点:


  • 训练前过滤 (Pre-filtering):在训练开始前,首先剔除模型已能 100% 解决的简单任务。此举旨在避免在 Rollout 过程中生成无效的训练样本,将计算资源集中于模型需要提升的领域。

  • 训练中复制 (In-training Duplication):此为 DUPO 的核心。作为对比,DAPO 算法会在训练中剔除整组成败结果一致(全对或全错)的样本,并补充新样本。然而,这会导致批次 (batch) 内不同样本需串行执行 Rollout,在涉及大量工具调用的 Agent 训练中效率极低。DUPO 则直接在批次内随机复制那些结果存在差异(即奖励标准差不为 0)的轨迹 (trajectory) 来填充批次。这种设计保持了数据处理的并行性,从而显著提升了训练效率。


相比 DAPO,DUPO 将 Agent 的 RL 训练速度提升了约 2-3 倍。此外,在 WebSailor 的训练中还设计了严格的复合奖励机制,从格式规范性与答案准确性两个维度评估轨迹。只有当模型严格遵循预设的 ReAct 范式并最终得出正确答案时,才能获得高额奖励。这一设计旨在有效抑制奖励投机(Reward Hacking)行为,激励模型优化其推理链的完整性与有效性。


三、实验结果:在复杂和简单任务上均超过 DeepSeek-R1,Grok-3,GPT-4.1 等开闭源模型


WebSailor 在 BrowseComp,BrowseComp-zh,Xbench-DeepSearch,GAIA 等四个高难度 agent benchmark 上与一系列开闭源模型和 agent 进行了比较,结果如下图所示:



在四个任务上 WebSailor 都超越了所有开源的模型和 agent,其优势在极具挑战性的 BrowseComp-en 和 BrowseComp-zh 基准测试上表现得尤为突出。这一结果验证了作者的核心假设:在体现复杂且难以简化不确定性的数据上进行训练,能够赋予智能体强大且具有普适性的推理策略。WebSailor-3B 和 WebSailor-7B 更加鲜明地展示了其方法的有效性,尽管规模较小,WebSailor-7B 在 BrowseComp-en 上取得了 6.7 的准确率,显著超过了基于更大 32B 模型开发的 agent。这突显了其独特的训练范式 —— 精巧的数据合成和有针对性的强化学习 —— 而非单纯依赖模型规模,是性能提升的关键因素。


对简单任务的兼容性:


虽然 WebSailor 只在高复杂度、高不确定性任务上进行了训练,但对简单任务也表现出了向下兼容的能力。WebSailor 在 SimpleQA 基准数据集的一个子集上对其进行了评估。该基准的特点是问题准确度高、基于事实且条件简单,对于前沿的大语言模型来说,直接作答仍具有挑战性。结果如下图所示,几乎所有基于智能体的方法的表现都优于直接回答,而 WebSailor 超越了所有其他方法,展现了其在简单任务上的兼容性和高效性。



SailorFog-QA 复杂性的验证


作者对比了 SailorFog-QA 和之前开源 agent 训练数据以及 BrowseComp 的工具调用(tool-call)分布,结果如下所示,可以看出 SailorFog-QA 呈现出长尾分布,大量样本需要超过五次工具调用,部分轨迹甚至超过二十次交互。更为重要的是,这一分布与 BrowseComp-en 基准集自身的复杂度分布非常相似。需要注意的是,图中展示的是筛选之前的数据,在最终筛选阶段只保留了那些工具调用次数超过五次的轨迹。这一有针对性的数据构建策略确保模型训练于不仅复杂且结构上更具代表性的难推理任务,从而为模型赋予了实现强大多步推理能力的基础。



四、结论与未来展望


WebSailor 旨在缩小开源与顶尖闭源系统在复杂信息检索任务上能力鸿沟的网页智能体系列。现有开源智能体性能瓶颈的核心在于,其训练数据普遍缺乏真实世界中那种 “高且难以归约” 的内在不确定性。为解决此问题,作者提出了一套创新的方法论:首先,通过 SailorFog-QA 数据合成 pipeline,能够规模化地生成具有复杂拓扑结构与信息模糊性的高难度问题,迫使模型学习超越线性推理的策略;其次,开创性地采用推理链重构技术,既利用了专 LRM 的解题能力,又通过重构简洁、高效的思路,避免了其冗长风格对模型探索能力的束缚;最后,少量样本的冷启动(RFT)与专为 agent 优化的 DUPO 强化学习算法相结合,构建了一套高效且稳定的两阶段训练流程。


WebSailor 的成功对开源社区具有重要意义。它证明了通往超人智能体能力的路径不仅依赖于模型规模的堆砌,更在于训练范式的革新。其中提出的 “高难度任务合成 → 精炼逻辑监督 → 高效强化学习” 这一通用蓝图,为其他领域开发高级 agent 提供了可借鉴的思路。这鼓励整个社区从模仿人类可解问题,转向主动构建能系统性激发模型涌现全新策略的极限挑战,从而真正推动 AI 能力的边界。


尽管取得了显著进展,作者认为该工作仍存在一些局限,这也为未来研究指明了方向。当前训练受限于 32k 的上下文长度,这在一定程度上限制了模型处理更长链条任务的潜力。同时,DUPO 算法虽有优化,但其同步训练的本质依然是效率瓶颈。展望未来,首要技术目标是迁移到异步强化学习框架,这将大幅提升训练效率,使更深层次、更长周期的探索式学习成为可能。在更宏大的愿景上,划将 “高不确定性任务” 的定义从信息检索推广至更广阔的维度。例如,构建需要整合多模态信息、调用更复杂的工具、或是在不同知识领域间进行战略性综合的复杂任务。通过持续设计并挑战这些处于当前 AI 能力边缘甚至之外的新问题,我们才能最终创造出不仅能检索信息,更能进行推理、发现和创造的 agent,成为增强人类智慧的强大伙伴。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这蓝图的核心思想就是,让AI从一开始就瞄准“最难的骨头”去啃,而且还要教它怎么啃得漂亮,再让它自己多多练习。放在个性化教育领域简直太棒了!我们可以给学生Agent设置非常复杂、需要融会贯通多学科知识的“超纲”问题,比如结合历史、物理、文学来分析一个社会现象。然后,通过分析优秀学霸的解题过程(如果能有的话),提炼出最核心、最有效的解题思路反馈给Agent。高效强化学习就不用说了,让Agent在模拟考试、互动问答中不断迭代进步。最大的挑战嘛,我觉得是“精炼逻辑监督”这块。每个学生的学习路径和理解模式都可能独一无二,要提炼出通用的“精炼逻辑”可能不太行,也许得转向更细粒度的个性化监督,或者引入更多的元学习、多任务学习机制才能适应这种复杂性吧。

哇,那听起来Agent以后就是我的私人侦探和智囊团了!我觉得它在法律咨询、金融风控方面绝对是王者。你想想,那么多复杂的法律条款、变幻莫测的市场数据,人类要处理起来简直头大。Agent如果能像WebSailor那样,从各种看似不相关的线索中推理出真相或风险点,那律师和金融分析师的工作效率不得起飞?至于人类角色嘛,我觉得我们会变得更像“监督者”和“决策者”,检查Agent的建议,然后做出最终决定。以后可能再也没有“打工人”了,只有“智慧指挥家”哈哈。

从长远来看,我个人认为开源Agent的潜力是巨大的,甚至有可能在某些方面超越闭源。首先,开源意味着透明和可定制性,能够汇聚全球开发者社区的集体智慧,迭代速度和创新点往往会非常惊人。想想Linux和Android,不就是很好的例子吗?其次,它降低了使用门槛,能促进更广泛的应用和反馈,形成良性循环。但关键因素在于:一是是否有足够强大的资金和算力支持,这往往是闭源大公司的强项;二是核心研究机构能否持续投入到基础范式突破上,而非仅停留在现有模型的微调;三是开源治理模式能否有效解决碎片化、安全性和商业化的问题。如果这些点能被有效解决,开源超越闭源指日可待。

我觉得这套训练方法挺酷的!就像教小孩子画画一样。先给他们一些难的题目(高难度任务),比如画一个带情绪的抽象画,然后示范一些高效的作画思路(精炼逻辑监督),最后再让他们自己多练多试,有进步就鼓励(高效强化学习)。对艺术创作辅助的Agent来说,启发是巨大的。可以先给Agent一些非常挑战的“创作命题”,比如根据一段旋律生成匹配的视觉叙事。挑战嘛,重点在于“高难度任务合成”和“精炼逻辑监督”:艺术成果的“好坏”本身就非常主观,如何量化并合成出真正“难”且有意义的艺术任务?“精炼逻辑”又该如何提取?难道是把艺术大师的创作手稿和思考过程“格式化”一遍?这感觉就很难了,可能需要更多新的评估标准和技术。

超越?有点难说吧。虽然WebSailor很厉害,但闭源巨头手里握着海量数据、顶级的工程师、还有砸钱不眨眼的资本。它们可以尝试很多烧钱的、短期内看不到回报的黑科技。开源的优势在于开放和社区,但劣势也明显:资源分散、缺乏统一调度、以及商业化盈利模式不清晰。现在看来,开源更多是在特定赛道上实现了突破,比如Agent领域。我觉得未来的趋势更可能是“你中有我,我中有你”:闭源模型可能会放出一些能力,吸引开源社区基于此开发应用;开源项目也可能被大公司“招安”或者吸纳其技术。最终,鹿死谁手还得看谁能真正把AI做得更“好用”,而不仅仅是“性能强”。