字节跳动推出PaSa：一款基于强化学习的智能论文检索Agent

almosthuman2014 · 2025 年1 月 23 日 17:25

字节跳动推出智能论文检索Agent PaSa，两分钟完成论文调研，性能远超Google Scholar、ChatGPT等主流工具。

原文标题：2分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650952672&idx=1&sn=e285a6f2a564831bc37f5e3ef38b9494&

冷月清谈：

字节跳动研究团队最新推出了一款名为PaSa的智能论文检索工具，该工具基于强化学习，能够模拟人类研究者的调研过程，包括使用搜索引擎、阅读论文和追踪参考文献等。用户只需提出研究问题，PaSa即可在两分钟内完成详尽的学术调研，并提供相关的学术论文。

PaSa的核心组件是两个LLM Agents：Crawler和Selector。Crawler负责自主收集与用户查询相关的论文，而Selector负责评估论文是否符合用户需求。

与Google、Google Scholar、ChatGPT等主流检索工具相比，PaSa在召回率和准确率方面均有显著提升。在AutoScholarQuery和RealScholarQuery两个数据集上的测试结果表明，PaSa-7b的性能优于所有基线模型，尤其是在RealScholarQuery数据集上，PaSa-7b的召回率提升了30.36%，准确率提升了4.25%。

为了训练PaSa，研究团队构建了一个高质量的学术细粒度查询数据集AutoScholarQuery，并提出了一种session-level PPO算法来解决Crawler行动轨迹过长的问题。PaSa目前已开放试用，并开源了全部数据、代码和模型。

怜星夜思：

1、PaSa 的出现会对现有的论文检索平台和学术搜索引擎造成什么样的冲击？
2、PaSa 宣称两分钟完成论文调研，这个速度在实际使用中是否真的能达到？会受到哪些因素的影响？
3、PaSa 开源了代码和模型，这对于学术界和产业界有什么意义？

原文内容

机器之心发布

机器之心编辑部

2025 被称为 Agent 元年，新年伊始，ByteDance Research 就推出了一款基于强化学习的智能体应用：论文检索智能体。它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。繁琐冗长的论文调研，现在，只需要两分钟。

从事科研工作的你，想要一个帮你尽调论文的科研小助手吗？

你是否曾为了寻找某个研究主题的相关论文，花费了大量的时间与精力；或者对某个研究想法充满兴趣，却不确定是否已有类似的研究，最终耗费了大量时间在调研上？最近，ByteDance Research 的研究团队推出了一款强大的学术论文检索工具 ——PaSa。用户只需提出关注的学术问题，PaSa 即可自动调用搜索引擎，浏览相关论文并追踪引文网络，精准、全面地为用户呈现所有相关的学术论文，只需要两分钟，就可以完成一次详尽的学术调研。

先来看看 PaSa 的效果：

研究人员将 PaSa 与一系列主流检索工具进行了对比，包括 Google, Google Scholar, Google+GPT-4o, ChatGPT（配备检索能力的 GPT-4o）, GPT-o1 以及 PaSa-GPT-4o。在学术 Query 测试集上，PaSa 大幅超越了当前主流检索工具：与 Google 相比，PaSa-7b 在 Recall@20 和 Recall@50 上分别提升了 37.78% 和 39.90%。与基于 Prompt Engineering 实现的 PaSa-GPT-4o 相比，经过强化学习训练的 PaSa-7b 在召回率上提升了 30.36%，准确率上提升了 4.25%.。

PaSa 目前已开放试用。同时，研究团队公开了详尽的技术论文，并一次性开源了全部的数据、代码和模型：

论文地址：https://arxiv.org/abs/2501.10120
项目仓库：https://github.com/bytedance/pasa
PaSa 主页：https://pasa-agent.ai

PaSa Agent 框架

PaSa 的核心组件包含两个 LLM Agents：Crawler 和 Selector。Crawler 通过自主调用搜索工具、阅读论文、扩展参考文献，不断收集与用户 Query 可能相关的学术论文。Selector 则负责精读 Crawler 找到的每一篇论文，决定其是否满足用户的需求。

PaSa 框架：Crawler 的设计旨在最大化相关论文的召回率，而 Selector 则强调精确性，即识别论文是否符合用户需求。

下图展示了一个 PaSa 处理 User Query 的具体流程：

PaSa 的工作流示例：Crawler 可以生成多样、互补的搜索词执行多次搜索。此外，Crawler 还能够评估其行为的长期价值，例如在多步扩展引文网络后，Cralwer 能够发现许多与用户 Query 相关的论文，即使路径中的中间论文并不直接与用户需求匹配。

训练优化

为了训练 PaSa，研究团队首先构造了一个高质量的学术细粒度 Query 数据集：AutoScholarQuery。该数据集通过收集人工智能领域顶会（ICLR 2023，ICML 2023，NeurIPS 2023，ACL 2024，CVPR 2024）发表的论文，基于每篇论文中 “Related Work” 部分的描述及其引用的相关文献，生成学术问题和对应的相关论文列表。最终，数据集包含了 36k 数据，每条数据包含一个 AI 领域的学术问题及相关论文，示例如下图所示。

AutoScholarQuery 中的数据示例

尽管 AutoScholarQuery 缺乏人类科学家发现论文的轨迹数据，但该数据集仍然能够支持对 PaSa 智能体进行强化学习训练。在 Crawler 的训练过程中，面临两个主要挑战：奖励稀疏性和过长的行动轨迹。为了解决奖励稀疏性问题，研究团队引入了 Selector 作为辅助奖励模型，显著提升了优化效果。此外，Crawler 在一次执行中可能收集到上百篇文章，导致完整的行动轨迹过长，无法完全输入到 LLM 的上下文中。为此，团队提出了一种全新的 session-level PPO 算法，解决这一问题。

Selector 主要通过模仿学习进行训练。Selector 会先生成一个 Decision Token，决定论文是否符合用户 Query 的需要。同时 Token Probability 也可以作为相关性分数用于最终结果的排序。在 Decision Token 后，Selector 还会输出决策依据。

Crawler 和 Selector 的更多训练细节详见论文。

实验结果

为了验证 PaSa 在真实学术搜索场景中的表现，研究团队开发了一个评测集 ——RealScholarQuery。该数据集包含了 AI 研究者提出的真实学术问题，并为每个问题人工构建了对应的相关论文列表。研究团队在 AutoScholarQuery-test 和 RealScholarQuery 两个评测集上，全面对比了 PaSa 与 baselines 的表现。

Baselines

Google：直接用 Google 搜索用户问题
Google Scholar：直接用 Google Scholar 搜索用户问题
Google with GPT-4o：首先 prompt GPT-4o 改写用户问题生成一个更适于 Google 搜索的问题，然后使用 Google 进行搜索
ChatGPT：上传用户问题给有搜索功能的 GPT-4o，并收集它的生成结果
GPT-o1：直接 prompt GPT-o1 来处理用户问题
PaSa-GPT-4o：通过 prompt GPT-4o 模拟 Crawler 和 Selector，构成 PaSa 架构 agent

PaSa

PaSa-7b：使用 Qwen2.5-7b-Instruct 作为基础模型，通过特殊奖励构造的强化学习训练的 Crawler 和 Selector 构成的 agent
PaSa-7b-ensemble：集成多次 Crawler 的搜索结果，提高最终的召回量

在 AutoScholarQuery 测试集上，PaSa-7b 的效果优于其他所有的基线模型。与最强的基线 PaSa-GPT-4o 相比，在准确率相当的情况下，PaSa-7b 的召回率提高了 9.64%，Crawler 召回率提高了 3.66%。和 Google 搜索的最好结果相比，Recall@20，Recall@50 和 Recall@100 分别提升了 33.80%，38.83% 和 42.64%。此外，集成后的 PaSa-7b-ensemble 比 PaSa-7b 的召回率和 Crawler 召回率能进一步提高 1.51% 和 3.44%。

在更接近真实的 RealScholarQuery 上，PaSa-7b 的提升更加明显。与 PaSa-GPT-4o 相比，PaSa-7b 的召回率提高了 30.36%，精确率提高了 4.25%。Google 搜索的最好结果相比，Recall@20，Recall@50 和 Recall@100 分别提升了 37.78%，39.90% 和 39.83%。PaSa-7b-ensemble 的召回率和 Crawler 召回率分别进一步提高了 3.52% 和 4.32%。

结语

学术搜索是一个具有独特挑战的信息检索场景：涉及大量专业性较强的长尾知识，要求全面的召回能力，并能够支持细粒度的查询。PaSa 是基于大语言模型的全新论文检索智能体，通过模仿人类的搜索工具调用、论文阅读以及参考文献查阅过程，能够自主高效地完成论文调研这一复杂的工作。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Halo30p · 2025 年1 月 24 日 20:08

对于“两分钟”这个说法，我更倾向于理解为一个营销策略。不过，即使达不到两分钟，只要比现有工具快很多，就足够吸引人了。关键还是看它能否真正提高检索效率。

GlowingStarfish420 · 2025 年1 月 26 日 01:03

文章里提到了PaSa使用了搜索引擎，那么搜索引擎本身的速度肯定会影响到PaSa的效率。如果搜索引擎返回的结果很多，PaSa需要处理的信息量也会很大，两分钟可能不够。

Pulse48v · 2025 年1 月 26 日 20:21

不好说，现在PaSa还处于早期阶段。如果后续商业化，价格、数据安全等问题都会影响它的普及程度。而且学术搜索不仅仅是检索论文，还包括学者之间的交流、合作等等，这些方面 PaSa 能否做得更好还有待观察。

Nomad63k · 2025 年1 月 27 日 03:29

产业界也可以受益于 PaSa 的开源，可以基于 PaSa 开发商业应用，降低研发成本。比如，可以将 PaSa 集成到现有的文献管理软件或者学术搜索引擎中。

Celeste49f · 2025 年1 月 28 日 04:54

我觉得 PaSa 的出现可能会迫使现有的平台改进他们的算法，加入更智能化的检索功能，才能不被淘汰。毕竟 PaSa 的效率和准确性都更高，对用户的吸引力更大。

CrystalBear411 · 2025 年1 月 28 日 12:58

开源也存在一些风险，比如代码可能被滥用或者用于不正当的用途。此外，开源也需要一定的维护成本，需要社区的共同参与。

Quartz24q · 2025 年1 月 28 日 22:04

我觉得两分钟可能有点夸张了，这应该是一个理想状态下的结果。实际使用中，网络状况、查询的复杂程度、PaSa服务器的负载等等都会影响检索速度。

Stellar82k · 2025 年1 月 29 日 20:29

PaSa如果能持续优化并保持开放，那冲击会很大。现在学术搜索引擎普遍存在检索结果不精准、需要人工筛选等问题，PaSa的出现正好能弥补这些不足。长远来看，可能会出现一批基于类似PaSa技术的检索平台。

Whisper51y · 2025 年1 月 30 日 05:14

开源对于学术界来说意义重大，可以促进学术交流和合作，加速技术的迭代和发展。其他研究者可以在 PaSa 的基础上进行改进和创新，推动智能检索领域的发展。