阿里巴巴开源 ZeroSearch:大模型低成本自研搜索能力,无需昂贵的谷歌 API

阿里开源 ZeroSearch,大模型可自研搜索能力,成本直降88%,摆脱对昂贵API的依赖。

原文标题:拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

原文作者:AI前线

冷月清谈:

阿里巴巴发布 ZeroSearch 技术,通过强化学习框架使大语言模型 (LLM) 能够以模拟方式开发搜索功能,无需与真实搜索引擎交互,解决了传统 AI 系统训练中对昂贵商业搜索引擎 API 的依赖问题。ZeroSearch 不仅降低了训练成本 (降低 88%),还提高了 AI 系统学习信息检索的控制力,并且性能优于基于真实搜索引擎的模型。该技术适用于多种模型,包括 Qwen-2.5 和 LLaMA-3.2,并与多种 RL 算法兼容。ZeroSearch 通过轻量级的监督微调过程将 LLM 转化为检索模块,模拟搜索引擎生成相关和不相关的文档。在强化学习训练期间,系统采用基于课程搜索模拟的推出策略,逐步增加训练难度。实验结果表明,ZeroSearch 在多个问答数据集上的表现超过了使用真实搜索引擎训练的模型,并且具有良好的可扩展性和泛化性。尽管 ZeroSearch 需要访问 GPU 服务器,会带来额外基础设施成本,但其在成本、控制力和性能方面的优势,标志着 AI 系统训练方式的重大转变。

怜星夜思:

1、ZeroSearch 模拟搜索引擎的核心思路是什么?它与直接使用真实搜索引擎相比,有哪些优势和劣势?
2、文章提到 ZeroSearch 降低了 88% 的成本,这个数据是如何计算出来的?这种成本降低对 AI 开发领域会产生什么影响?
3、ZeroSearch 在基础模型和指令优化模型中都能很好地泛化,这意味着什么?未来大模型的发展方向会因此而改变吗?

原文内容

整理 | 华卫

近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为“ZeroSearch”的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全消除对昂贵商业搜索引擎 API 的需求。

研究人员表示,“强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。”

据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大量的 API 费用。

该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集和预训练模型,允许其他研究人员和公司能够应用这一方法。

项目链接:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

有网友评价,“ZeroSearch 是 LLM 的游戏规则改变者。”还有人说,“这似乎是 RAG 应该发展的方向。”

以极低的成本超越谷歌

要开发能够自主搜索信息的 AI 助手会面临两大挑战:一是在训练过程中,搜索引擎返回的文档质量不可预测;二是训练高级 AI 系统通常需要对大型科技公司控制的服务进行昂贵的 API 调用,尤其是向谷歌这样的商业搜索引擎进行数十万次 API 调用,成本高得令人望而却步。

在针对七个问答数据集所进行的全面实验中,ZeroSearch 的性能表现不仅与使用真实搜索引擎训练的模型相当,而且在很多情况下还超越了它们。结果表明,ZeroSearch 使用 3B LLM 作为模拟搜索引擎,就可以有效地提升策略模型的搜索能力;一个拥有 70 亿参数的检索模块能达到可与谷歌搜索相媲美的性能,而一个拥有 140 亿参数的模块甚至超过了谷歌搜索的表现。

更重要的是,ZeroSearch 表现出强大的可扩展性:增加 GPU 的数量可以显著加快模拟 LLM 的生成吞吐量,从而实现高效的大规模部署。

并且,ZeroSearch 在基础模型和指令优化模型中都能很好地泛化。在这两种模型类型下,ZeroSearch 都能稳步提高奖励性能,这突出了它的通用性。

“这证明了在强化学习的架构中,使用一个经过良好训练的 LLM 来替代真实搜索引擎是可行的。” 研究人员指出。

值得注意的是,ZeroSearch 在成本方面的节省也相当可观。根据研究人员的分析,通过 SerpAPI 使用 Google 搜索引擎对大约 64000 个搜索查询进行训练,成本约为 586.70 美元;而在四个 A100 GPU 上使用一个拥有 140 亿参数的模拟大型语言模型进行训练,成本仅为 70.80 美元,降低了 88%。

由此来看,ZeroSearch 所能解决的问题意义重大。不过,研究人员也指出,ZeroSearch 也有一定的局限性。部署模拟搜索 LLM 需要访问 GPU 服务器,虽然比商业 API 使用更具成本效益,但这会带来额外的基础设施成本。

不用搜索引擎怎么进行搜索?

据介绍,ZeroSearch 的方法始于一个轻量级的监督微调过程,将 LLM 转化为一个能够生成相关和不相关文档以响应查询的检索模块,可以作为模拟搜索引擎,生成相关和嘈杂的文档以响应查询。

研究人员解释道:“我们的关键认知是,LLM 在大规模预训练期间已经获得了广泛的世界知识,并且能够在给定搜索查询的情况下生成相关文档,真实搜索引擎和模拟 LLM 之间的主要区别在于返回内容的文本样式。但是,通过轻量级监督微调,即使是相对较小的 LLM 也可以有效地模拟真实搜索引擎的行为。”

除了消除 API 成本之外,使用 LLM 生成文档的一个重要优势是能够控制文档质量。具体来说,在监督微调过程中,通过提示设计区分导致正确或错误答案的文档,使模拟 LLM 只需调整提示中的几个单词即可学习生成相关或嘈杂的文档。

在强化学习训练期间,该系统采用了研究人员所说的“基于课程搜索模拟的推出策略”。在推出过程中,策略模型会执行交互式推理并生成搜索查询,然后将查询输入模拟 LLM 以生成相应的文档。为了逐步增加训练的难度,该系统在强化学习训练期间引入了一种基于课程学习的部署机制,这种机制下生成文档的质量会随着时间的推移而逐渐降低,以模拟越来越具有挑战性的检索场景。这允许策略模型首先学习基本的输出格式和任务要求,然后再逐步适应更具挑战性和嘈杂的检索场景。

奖励信号是强化学习过程中的主要监督。在这项工作中,ZeroSearch 采用了基于 F1 分数的奖励,该奖励只关注答案的准确性。

对 AI 开发的未来意味着什么?

ZeroSearch 的这一突破标志着 AI 系统的训练方式发生了重大转变。其表明,AI 在不依赖搜索引擎等外部工具的情况下也能实现提升。

对于预算有限的小型 AI 公司和初创企业来说,这种方法可以创造公平的竞争环境。API 调用的高昂成本一直是开发复杂 AI 助手的一大进入壁垒,ZeroSearch 将这些成本降低了近 90%,使高级 AI 训练变得更加触手可及。除了节省成本之外,这项技术还让开发者能够更好地控制训练过程。在使用真正的搜索引擎时,返回文档的质量是不可预测的。而借助模拟搜索,开发者能够精确控制 AI 在训练过程中所接触到的信息。

随着大语言模型的不断发展,像 ZeroSearch 这样的技术意味着,未来 AI 系统可以通过自我模拟而不是依赖外部服务来发展日益复杂的能力,这有可能会改变 AI 开发的经济模式,并减少对大型技术平台的依赖。此外,传统搜索引擎对 AI 开发的必要性似乎在降低。

随着 AI 系统变得更加自给自足,未来几年的技术格局可能会大不相同。

参考链接:

https://venturebeat.com/ai/alibabas-zerosearch-lets-ai-learn-to-google-itself-slashing-training-costs-by-88-percent/

https://arxiv.org/pdf/2505.04588

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~


今日荐文

图片

你也「在看」吗?👇

降低 88% 的成本,估计是对比使用 SerpAPI 调用 Google 搜索 API 的费用,和使用 140 亿参数的 LLM 在 A100 GPU 上运行的成本。这对小公司和创业者来说绝对是福音,可以更低成本地进行 AI 研究,降低了进入门槛,某种程度上也打破了大型科技公司的垄断。

以后大模型会不会变成“永动机”?自己生成数据,自己训练,自己进化……想想就可怕!不过,这种“自力更生”的模式,也可能会带来一些意想不到的问题。比如,模型可能会陷入某种认知偏见,或者变得越来越脱离现实世界。总之,技术发展永远是把双刃剑,需要我们谨慎对待。

我更关注这种成本降低背后的意义。以往,训练 AI 系统需要大量的数据和昂贵的算力,这让很多小团队望而却步。ZeroSearch 的出现,降低了对外部数据源和 API 的依赖,让 AI 开发更具自主性。这意味着,未来可能会出现更多的小型 AI 创新公司,他们可以通过更巧妙的算法和更低的成本,实现技术突破。

这让我想起 GAN 的思路啊,让两个模型互相博弈,一个负责生成,一个负责判断。ZeroSearch 相当于把这个思路用在了搜索领域。但是,这种方式生成的“数据”质量是否可靠,以及是否会陷入某种“信息茧房”,值得深入研究。万一模型学到的都是自己“幻想”出来的东西,那岂不是南辕北辙?

我觉得 ZeroSearch 最巧妙的地方在于它让 LLM 自己“扮演”搜索引擎的角色。相当于模型自己给自己提供训练数据,避免了对外部 API 的依赖。优势很明显,成本降低,而且对数据的控制权更高。劣势可能在于,模拟的数据毕竟不是真实世界的,可能会引入一些偏差,影响模型的泛化能力。

能在不同类型的模型上都表现良好,说明 ZeroSearch 的适用性很强,不是针对特定模型做的优化。未来大模型的发展可能会更加注重“自给自足”的能力,减少对外部资源的依赖。甚至可以猜想,未来的大模型可能会内置一个“虚拟世界”,在其中进行自我训练和进化。

从技术角度看,ZeroSearch 的核心在于用一个轻量级微调后的 LLM 来模拟搜索引擎的行为,生成相关和不相关的文档。 这样做的好处是解决了真实搜索引擎 API 成本高、返回结果质量不可控的问题。但潜在的风险是,如果模拟的搜索引擎不够真实,可能会导致策略模型学到错误的知识,影响最终的性能。此外,部署 LLM 模拟器也需要一定的 GPU 资源,会增加额外的基础设施成本。

别光看到成本降低,还要看到背后的机会。以后会不会出现专门提供“高质量 AI 模拟数据”的公司?如果 ZeroSearch 成为主流,这种需求可能会爆发。就像现在的 AI 模型训练,数据清洗和标注也是一个很大的产业。

我觉得这说明 ZeroSearch 找到了一种比较通用的提升模型能力的方法。它不仅仅是一种降低成本的手段,更是一种新的训练范式。未来大模型的发展方向可能会更加注重内部知识的提炼和重组,而不是单纯地依赖外部数据。这有点像人类的学习过程,我们不仅仅是从书本上获取知识,更重要的是通过思考和实践,将知识内化为自己的能力。