清华团队用7B模型低成本打败GPT-4o数学推理

清华团队用低成本7B模型,结合强化学习方法PRIME,在数学推理上超越GPT-4o。

原文标题:仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

原文作者:AI前线

冷月清谈:

清华大学NLP实验室联合上海AI Lab等机构,提出了一种结合过程奖励的强化学习方法PRIME,并用该方法训练了一个7B模型Eurus-2-7B-PRIME。该模型在AIME 2024数学竞赛上取得了26.7%的准确率,超过了GPT-4o、Llama-3.1-70B等模型,且训练成本仅约一万元人民币,使用时间不到10天。

PRIME方法的核心是利用隐式过程奖励模型,该模型仅需最终结果的标签即可在线更新,无需额外训练价值模型,具有可扩展性和易用性。研究人员利用Qwen2.5-Math-7B-Base作为基座模型,并使用比Qwen Math少10倍的数据训练出了Eurus-2-7B-PRIME。实验结果显示,PRIME方法相较于仅用结果监督的方法,采样效率提升了2.5倍,并在下游任务上取得显著提升。此外,在线更新PRM的重要性也得到了验证,在线更新的PRM比固定不更新的PRM效果更好。

该项目开源后获得了AI社区的关注。PRIME方法和更强的基座模型的结合,未来有望训练出接近OpenAI o1的模型。

怜星夜思:

1、PRIME方法相比于传统的模仿学习方法,除了成本低之外,还有什么其他优势?
2、Eurus-2-7B-PRIME模型虽然在数学推理上表现出色,但在其他领域的表现如何?
3、如何评价PRIME方法在强化学习领域的创新性?

原文内容

作者 | OpenBMB 社区

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的 Scaling Law 逐渐受到质疑的今天,基于探索的强化学习有望带来新的 Scaling Law。

近日,清华大学 NLP 实验室联合上海 AI Lab,清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用 8 张 A100,花费一万块钱左右,不到 10 天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B 的 7B 模型 Eurus-2-7B-PRIME。

具体而言,研究人员利用 Qwen2.5-Math-7B-Base 作为基座模型,训练出了新模型 Eurus-2-7B-PRIME ,并在美国 IMO 选拔考试 AIME 2024 上的准确率达到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且仅使用了 Qwen Math 数据的 1/10。其中,强化学习方法 PRIME 为模型带来了 16.7% 的绝对提升,远超已知的任何开源方案。

该项目一经开源就在海外 AI 社区爆火,短短几天 Github 取得 400+ star。

未来,基于 PRIME 方法和更强的基座模型有潜力训练出接近 OpenAI o1 的模型。

blog 链接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f

GitHub 链接:https://github.com/PRIME-RL/PRIME

PRIME 方法介绍

长久以来,开源社区严重依赖数据驱动的模仿学习来增强模型推理能力,但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据,但高质量数据总是稀缺,使得模仿和蒸馏难以持续。虽然 OpenAI o1 和 o3 的成功证明了强化学习有着更高的上限,但强化学习有着两个关键挑战:(1)如何获得精准且可扩展的密集奖励;(2)如何设计可以充分利用这些奖励的强化学习算法。

PRIME 算法从隐式过程奖励(implicit process reward)的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型(outcome reward model, ORM)的数据,即答案的最终对错上进行训练,而隐式地建模过程奖励,最终自动训练出一个过程奖励模型,这整个过程都有严格的理论保证。

详细推导见:https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的这种性质,研究人员指出将其应用于强化学习有三大优势:

  1. 过程奖励:隐式过程奖励模型能够为每个 token 提供价值估计,在提供过程奖励的同时无需训练额外的价值模型(value model)

  2. 可扩展性:隐式过程奖励模型只需结果标签即可在线更新。所以,我们可以结合策略模型采样与结果验证器来直接更新 PRM,有效缓解分布偏移与可扩展性问题。

  3. 简洁性:隐式过程奖励模型本质上就是一种语言模型。在实践中,研究人员发现可以直接用初始的策略模型初始化 PRM。

隐式过程奖励解决了 PRM 在大模型强化学习中怎么用,怎么训,怎么扩展的三大问题,甚至不需要训练额外的奖励模型就可以开始强化学习,易用性和可扩展性极佳。

具体的 PRIME 算法流程如下图所示,它是一种在线强化学习算法,能够将每个 token 的过程奖励无缝应用于强化学习流程中。

实验结果

研究人员详细比较了 PRIME 算法和基线方法

相比于仅用结果监督,PRIME 有着 2.5 倍的采样效率提升,在下游任务上也有着显著提升。

研究人员还验证了 PRM 在线更新的重要性,可以看到,在线的 PRM 更新要显著优于固定不更新的 PRM,这也证明了 PRIME 算法设计和合理性

此外,研究人员还额外收集数据,基于 Qwen2.5-Math-Instruct 训练了 SOTA 水平的 EurusPRM,能够在 Best-of-N 采样中达到开源领先水平

showcase 演示
Question (AIME 2024 试题,Claude-3.5-Sonnet 做错)

Answer

Question

Which number is larger? 9.11 or 9.9?

Answer

强化学习是连接已有智能体(大模型)和现实世界(世界模型,具身智能)的桥梁,以及将世界反馈内化为模型智能的路径,将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合,解决了大模型强化学习的奖励稀疏问题,有望推动大模型复杂推理能力的进一步提升。

该工作在海外AI社区受到了很大欢迎:

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文





图片
你也「在看」吗?👇

PRIME方法巧妙地利用隐式过程奖励,解决了强化学习中奖励稀疏的问题,这在强化学习领域是一个比较重要的创新。它让强化学习不再依赖于人工设计的奖励函数,而是可以根据结果自动学习奖励,这大大简化了强化学习的流程。

我觉得除了成本低,PRIME的关键优势在于它不依赖于高质量的数据。传统的模仿学习需要大量高质量数据来提升模型性能,而PRIME只需要最终答案的对错就能训练,这在数据获取成本越来越高的今天,是非常有价值的。

用更通俗一点的话来说,PRIME就像一个学生,他只需要知道考试的最终分数,就能自己琢磨出哪里做得不好,下次考试争取做得更好。而传统的模仿学习方法就像一个学生,他需要老师一步一步地教他怎么做题,才能提高成绩。

文章中主要展示了它在数学推理上的能力,并没有提及其他领域的表现。不过,我觉得可以期待一下后续的研究,看看它在其他领域的表现如何。

感觉这个模型在数学方面表现这么好,其他方面应该也不会太差吧?毕竟数学推理能力强,逻辑思维能力应该也不错。纯属猜测,坐等大佬实测。

PRIME 的可扩展性也是一大优势。它可以根据结果标签在线更新奖励模型,这意味着它能不断学习和改进,而传统的模仿学习方法则需要重新训练模型。

我觉得PRIME方法的创新性在于它将隐式过程奖励和强化学习结合起来,并证明了这种方法的有效性。这为强化学习提供了一种新的思路,也为大模型的训练提供了一种新的方法。

我认为,PRIME方法本身不局限于数学领域,未来可能可以应用于其他需要推理能力的领域,比如代码生成、文本摘要等,这需要进一步的研究来验证。

从我个人的角度来看,PRIME方法的出现,降低了强化学习的门槛,让更多人可以参与到强化学习的研究中来。这对于推动强化学习的发展,具有重要的意义。