CycleResearcher：基于强化学习的可自主进化科研智能体，开启科研自动化新篇章

almosthuman2014 · 2025 年3 月 31 日 10:22

CycleResearcher通过强化学习实现科研流程自动化，可自主进化，并开源代码和数据，加速科研进步。

原文标题：ICLR 2025 | 真正「Deep」的「Research」，通过强化学习实现可自主进化的科研智能体来了！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650962482&idx=2&sn=b0d5b15e10d3ea34c276c946b2893f95&

冷月清谈：

西湖大学、UCL等机构的研究团队发布了突破性成果CycleResearcher，它首次实现了可训练的科研流程全链路端到端训练，覆盖文献检索、主动提问、强化学习迭代优化、方法论设计、实验设计到论文自动生成。该研究团队构建了包含近1.5万篇高质量学术论文的数据集（Research-14K），并提出了Iterative SimPO的训练框架，通过集成CycleResearcher（策略模型）和CycleReviewer（奖励模型），模拟真实世界的研究-评论-改进的迭代循环。实验结果表明，CycleResearcher生成论文的模拟评审平均得分达到5.36分，接近人类真实预印本的平均水平，论文接受率也远高于现有AI Scientist模型。团队开源了所有代码、数据及教程，为科研工具的开放共享做出贡献。

怜星夜思：

1、CycleResearcher的开源，会对学术界和工业界带来哪些潜在影响？
2、CycleResearcher目前还存在哪些局限性？未来有哪些可能的改进方向？
3、CycleResearcher的出现，对传统的科研人员的角色会产生什么影响？我们应该如何应对这种变化？

原文内容

CycleResearcher 研究团队成员包括：张岳教授，西湖大学人工智能系教授，工学院副院长，其指导的博士生朱敏郡、张鸿博、鲍光胜、访问学生翁诣轩；UCL 访问研究员杨林易博士，25 Fall 入职南方科技大学拟任独立 PI，博士生导师，研究员。

AI 技术不断进步，科研自动化浪潮正在深刻改变学术世界！近日，来自西湖大学、UCL 等机构的研究团队在自动化科研方向发布了一项突破性的成果：CycleResearcher 。 CycleResearcher 首次实现了可训练的科研流程的全链路端到端训练，覆盖智能文献检索、模型主动提问、强化学习迭代优化论文创新点、方法论架构设计、实验设计到论文自动生成的完整闭环。

值得一提的是，同类功能在 OpenAI 商业化方案中需支付高达 2 万美元 / 月的服务费用，而团队开源了所有代码、数据、和 Demo：

论文链接：https://openreview.net/forum?id=bjcsVLoHYs
网页链接：https://ai-researcher.net/
代码链接：https://github.com/zhu-minjun/Researcher

牛津大学教授 Will MacAskill 最新预言未来 AI 的增长率足以在不到 10 年的时间里，推动相当于 100 年的技术进步。如何让 AI 实现「递归自我改进」成为了解决这个问题的关键！然而，现有的一系列工作包括 SakanaAI 公司于去年 8 月发布的 AI Scientist、香港大学最近发布的 AI-Researcher 都是基于调用 API 构建推理的框架去实现自动化科研，而无法被训练优化。CycleResearcher（模型上传于 24 年 8 月）是全球首个通过强化学习迭代优化训练实现的 AI 科研智能体。

图 1: AI Researcher 功能展示图

CycleResearcher 首次实现了通过强化学习进行科研过程的自动迭代改进，它能够模拟完整的科研流程，包括文献综述、研究构思、论文撰写，以及模拟实验结果。

研究团队主要干了三件事情：

1）数据集：发布了两个大规模数据集 Review-5k 和 Research-14k，用于评估和训练学术论文评审和生成模型。

2）CycleResearcher 模型：可以生成质量接近人类撰写预印本的论文（评分 5.36 分），实现 31.07% 的接受率。

3）CycleReviewer 模型：一个做论文评审的模型，在平均绝对误差 (MAE) 方面显示出令人鼓舞的结果，与人类评审员相比，平均绝对误差（MAE）降低了 26.89%。

利用商业大型语言模型（LLMs）作为研究助理或想法生成器已经取得了显著进展，但在多达上万次模拟同行评议中通过反馈而自我进化的自动科研大模型从未实现过。这项研究的提出旨在解决了这个领域难题。

图 2: CycleResearcher 训练框架图

创新点详细解读：

1. 高质量数据集与模型规模化：为训练 CycleResearcher，研究团队专门构建了包含近 1.5 万篇高质量学术论文的数据集（Research-14K），数据来源覆盖了 ICLR、NeurIPS、ICML、ACL、EMNLP、CVPR 和 ICCV 等顶级会议。提供了多个不同规模的模型（12B、72B、123B），满足不同科研需求。

2. 强化学习与迭代反馈机制：如图二所示，CycleResearcher 的核心技术，在于其采用迭代式偏好优化（Iterative SimPO）的训练框架，这一方法使得在线强化学习（Online RLHF）成为了可能。这个框架包含两个关键模型：策略模型 (CycleResearcger) 和奖励模型 (DeepReveiwer)。

3. 指令微调（SFT）热身阶段：策略模型 CycleResearcher 负责生成论文的各个部分，它首先会进行广泛的文献综述，从输入的 bib 文件中获取所有参考文献及其摘要，全面了解研究背景。然后，它会交替生成论文的大纲和正文，确保逻辑流畅。具体来说，它会先生成动机和大纲中的主要思想，然后生成标题、摘要、引言和方法部分。接下来，概述实验设置和结果，随后生成实验设计和模拟结果（注意，这里的实验结果是模拟的）。最后，它会分析实验结果并形成结论。整个过程就像一位经验丰富的科研人员在撰写论文一样，有条不紊，逻辑清晰。奖励模型 CycleReviewer 则负责模拟同行评议，对生成的论文进行评估和反馈。它会从多个维度对论文进行打分，并给出具体的评审意见。

4. 迭代反馈训练阶段：研究人员首先通过拒绝采样获取样本，通过 CycleReviewer 的打分构成偏好对，两个模型相互配合，通过强化学习的方式不断优化，CycleResearcher 根据 CycleReviewer 的反馈不断改进自身的论文生成策略，CycleReviewer 则根据 CycleResearcher 生成的论文不断提高自身的评审能力。两个模型交互反馈，不断优化策略。在 Iterative SimPO 算法中，SimPO 算法虽然可以帮助 AI 区分 “好” 论文和 “坏” 论文，但它不能保证 AI 生成的文本是流畅的。因此，我们将 SimPO 损失和 NLL 损失结合起来，让 AI 模型既能写出高质量的论文，又能保证文本的流畅性。

5. 实验结果：CycleResearcher 生成论文的模拟评审平均得分达到 5.36 分，超过目前 AI Scientist 的 4.31 分，且十分接近人类真实预印本的平均水平（5.24 分）。同时，CycleResearcher 论文的接受率达到了 35.13%，远高于 AI Scientist 的 0%。

总结

1: 这篇工作首次提出了一个用于自动化整个研究生命周期的迭代强化学习框架通过集成 CycleResearcher（策略模型）和 CycleReviewer（奖励模型），该框架能够模拟真实世界的研究 - 评论 - 改进的迭代循环。

2: 团队发布了两个大规模数据集，用于学术论文生成和评论的评估与训练 Review-5k 和 Research-14k 数据集专为捕捉机器学习中同行评审和研究论文生成的复杂性而设计，为评估和训练学术论文生成和评审模型提供了宝贵的资源。

3: CycleResearcher 在研究构思和实验设计方面表现出一致的性能，可以达到人类撰写预印本的论文质量，接近会议接受论文的质量。这表明 LLM 可以在科学研究和同行评审过程中做出有意义的贡献。

我们坚信科研工具应当开放共享，因此提供了完整的开源资源套件：

pip install ai_researcher

开源套件包含：

1. 不同规模模型：所有模型均支持本地部署

CycleResearcher：提供 12B、72B 和 123B 三种规模
CycleReviewer：提供 8B、70B 和 123B 三种规模
DeepReviewer：提供 7B 和 14B 两种规模

2. 大规模训练数据集：

Review-5K：包含 4,989 篇论文的专业评审数据
Research-14K：包含 14,911 篇高质量论文的结构化数据
DeepReview-13K：包含 13,378 篇论文的多维度深度评审数据

3. 详尽教程：

CycleResearcher 教程：https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_1.ipynb
CycleReviewer 教程：https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_2.ipynb
DeepReviewer 教程：https://github.com/zhu-minjun/Researcher/blob/main/Tutorial/tutorial_3.ipynb

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

OnyxHorse674 · 2025 年3 月 31 日 20:37

我觉得与其说是“取代”，不如说是“赋能”。CycleResearcher可以帮助科研人员更高效地完成工作，但科研人员的价值在于提出有意义的问题、设计合理的实验、以及对结果进行深入的分析。我们需要拥抱AI，把它当成一个强大的助手，而不是一个竞争对手。

TwilightPeacock415 · 2025 年4 月 1 日 05:08

同意楼上！CycleResearcher目前看起来更像一个高效的文献整理和论文生成工具，距离真正的“科研智能体”还有距离。未来的改进方向可以考虑让AI参与到科研假设的提出、实验方案的优化等更核心的环节。另外，数据质量也很关键，高质量的数据才能训练出更优秀的模型。

Lunar391e · 2025 年4 月 2 日 04:12

我有点悲观，感觉以后科研界都要变成AI工程师的天下了。传统科研人员如果不能快速适应这种变化，可能会被淘汰。我觉得应该积极拥抱AI，学习相关技能，同时也要保持自己的独立思考能力，不要被AI牵着鼻子走。

DancingFrog182 · 2025 年4 月 3 日 15:38

CycleResearcher的开源绝对是科研界的一大福音！想象一下，以后文献综述、实验设计这些繁琐的工作都可以交给AI来完成，科研人员可以把更多精力放在创新性思考上。对工业界来说，也能加速产品研发，提高竞争力。当然，也需要警惕AI可能带来的学术不端行为。

SummerSun956 · 2025 年4 月 3 日 18:58

泻药，人在实验室，刚跑完代码。CycleResearcher开源意味着科研门槛大大降低，以后人人都能搞科研了（误）。认真说，我觉得最大的影响是加速科研迭代速度，但也可能导致研究方向同质化。另外，开源也方便大家一起改进模型，说不定能催生出更强大的科研AI。

StormyRaven098 · 2025 年4 月 4 日 03:41

我觉着CycleResearcher现在可能更擅长模仿现有研究，真正的突破性创新可能还比较难。未来的改进方向可以是引入更多创造性算法，让AI不只是学习，还能真正“思考”。另外，模型的可解释性也很重要，我们要知道AI为什么得出某个结论，而不是把它当成黑盒。

Flux219p · 2025 年4 月 5 日 01:05

个人觉得影响挺大的。学术界可能出现更多AI辅助研究，加速科研效率；工业界可以利用这个模型来优化研发流程，降低成本。但同时也会带来一些伦理问题，比如AI署名权、研究成果的原创性等等。

Celeste49f · 2025 年4 月 5 日 18:25

CycleResearcher虽然强大，但应该还局限于特定领域吧？通用性可能是个问题。另外，实验结果是模拟的，真实实验数据呢？未来可以尝试结合真实数据进行训练，提高模型的泛化能力。还可以考虑加入更多伦理约束，避免AI生成虚假或误导性研究。

StarryUnicorn587 · 2025 年4 月 6 日 19:22

肯定的，以后科研人员的技能树要更新了！不能只会做实验、写论文，还得懂AI、会用AI。我觉得应该加强AI相关的教育和培训，让科研人员更好地利用AI来提升自己的研究水平。另外，也要重新定义科研人员的价值，更加注重创新性和批判性思维。