微软rStar-Math:小型语言模型也能精通数学推理

微软rStar-Math让小型语言模型在数学推理上超越GPT-3,成本更低,代码即将开源。

原文标题:让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞

原文作者:机器之心

冷月清谈:

微软亚洲研究院的研究团队提出了rStar-Math,一种能让小型语言模型(SLM,1.5B到7B规模)在数学推理能力上媲美甚至超越OpenAI GPT-3的方案。通过引入一种自我进化的System 2推理方法,利用蒙特卡洛树搜索(MCTS)实现“深度思考”能力,rStar-Math在MATH基准测试中,将Qwen2.5-Math-7B的成绩从58.8%提升到90.0%,将Phi3-mini-3.8B的正确率从41.4%提升到86.4%,分别超过了GPT-3-preview 4.5%和0.9%。

该方案的核心在于:
1. 代码增强的CoT数据合成方法:通过MCTS生成经过验证的逐步推理轨迹,用于训练策略SLM。
2. 改进的过程奖励模型训练:避免简单的步级分数标注,提升过程偏好模型(PPM)的评估效果。
3. 模型自我进化:采用自主训练方案,通过持续迭代优化提升推理能力。

值得注意的是,rStar-Math的训练成本较低,仅使用了60块A100,并且项目和代码即将开源。此外,研究团队意外发现,MCTS驱动的深度思考展现出模型的反思能力,模型能够识别错误并主动回溯采用更有效的方法。实验也表明,奖励模型而非基础模型大小是决定最终性能的关键。

怜星夜思:

1、rStar-Math 的开源会对教育行业产生哪些影响?
2、rStar-Math 提到的“自我进化”具体是如何实现的?能否详细解释一下?
3、除了数学推理,rStar-Math 的这种“深度思考”能力还能应用于哪些领域?

原文内容

机器之心报道

机器之心编辑部


OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。


但这种突破背后是庞大的算力支持与推理开销:API 的价格上,o1-preview 每百万输入 15 美元,每百万输出 60 美元,而最新版的 o3 在处理复杂推理任务时,单次成本更是高达数千美元。


业界一直在寻找一个更经济、更高效的解决方案。而这个答案可能比预期来得更快一些。


今天登顶 Hugging Face 热门榜一的论文展示了小模型的潜力。来自微软亚洲研究院的研究团队提出了 rStar-Math。rStar-Math 向我们证明,1.5B 到 7B 规模的小型语言模型(SLM)无需从更大模型蒸馏,就能在数学推理能力上媲美甚至超越 OpenAI o1。



  • 论文标题:rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
  • 论文链接:https://arxiv.org/pdf/2501.04519
  • Github 链接:https://github.com/microsoft/rStar(即将开源)

经过 4 轮自我进化,吸纳了 747k 数学问题合成的数百万数据,rStar-Math 将 SLM 的数学推理能力提升到了最先进水平。

例如,在 MATH 基准测试上,它将 Qwen2.5-Math-7B 的成绩从 58.8% 提升到了 90.0%,将 Phi3-mini-3.8B 的正确率从 41.4% 提升到了 86.4%,分别超过了 o1-preview 4.5% 和 0.9%。

拉到美国数学奥林匹克(AIME)的考场上,15 道题,rStar-Math 能够做对 8 道,在最优秀的高中数学竞赛生中也能排到前 20%。

更重要的是,他们只花了 60 块 A100 就达到了如此效果,项目和代码即将开源。

AI 投资人 Chetan Puttagunta 锐评:「对创业公司来说,这将是一个绝佳的机会!」


当如此强大的推理能力可以用更低的成本实现时,Keras 创始人 François Chollet 也感叹道:「2025 年将是开源 o3 复刻之年。」


学术圈的人对 rStar-Math 的欣赏,表达起来就直白多了:


发布不到 20 个小时,甚至就已经有人专门做了一期视频来深度解读。


  • 视频链接:https://www.youtube.com/watch?v=cHgHS6Y3QP0

从技术层面来说,rStar-Math 引入了一种可以自己进化的 System 2 推理方法,通过蒙特卡洛树搜索(MCTS)来实现「深度思考」能力。在测试阶段,它会在奖励模型的指导下,让数学策略模型进行搜索推理。

具体来看,在 MCTS 中,数学问题求解被分解为多步生成。每一步都将作为策略模型的 SLM 采样候选节点。每个节点生成一步 CoT 和相应的 Python 代码。为验证生成质量,只保留 Python 代码执行成功的节点,从而减少中间步骤的错误。

此外,大量 MCTS rollout 基于每个中间步骤的贡献自动分配 Q 值:对正确答案贡献更多的步骤获得更高 Q 值,被认为质量更高。这确保了 SLM 生成的是正确、高质量的推理轨迹。

由于 rStar-Math 的总体架构涉及两个 SLM,一个是数学策略模型,一个是奖励模型,该团队引入了三个关键创新:

  1. 创新的代码增强 CoT 数据合成方法,通过大量 MCTS rollout 生成经过验证的逐步推理轨迹,用于训练策略 SLM;

  2. 过程奖励模型训练方法也有所改进,避免了简单的步级分数标注,提升了过程偏好模型(PPM)的评估效果;

  3. 模型会自我进化,采用完全自主训练方案,从零开始构建并训练模型,通过持续的迭代优化来不断提升推理能力。


方法

该研究的目标是训练数学策略 SLM 和过程奖励模型 (PRM),并将两者集成到蒙特卡罗树搜索 (MCTS) 中以实现 System 2 深度思考。

选择 MCTS 有两个主要原因。

首先,它将复杂的数学问题分解为更简单的单步生成任务,与 Best-of-N 或 self-consistency 等其他 System 2 方法相比,MCTS 降低了策略 SLM 的难度。

其次,MCTS 中的逐步生成会自然产生两个模型的 step-level 训练数据。标准 MCTS rollout 会根据每个步骤对最终正确答案的贡献自动为每个步骤分配 Q 值,从而无需人工生成步骤级注释来进行过程奖励模型训练。

理想情况下,GPT-4 等高级 LLM 可以集成到 MCTS 中以生成训练数据。然而,这种方法面临两个关键挑战。首先,即使是强大的模型也难以持续解决难题,例如奥林匹克级别的数学问题。

因此,生成的训练数据将主要由更简单的可解决问题组成,限制了其多样性和质量。

其次,注释每步 Q 值需要广泛的 MCTS 部署;树探索(tree exploration)不足可能会导致虚假的 Q 值分配,例如高估次优步骤。鉴于每次 rollout 都涉及多个单步生成,并且这些模型的计算成本很高,因此增加 rollout 会显著提高推理成本。

为此,该研究探索使用两个 7B SLM(策略 SLM 和 PRM)来生成更高质量的训练数据,其较小的模型大小允许在可访问的硬件(例如 4×40GB A100 GPU)上广泛部署 MCTS。

然而,由于自生成数据的能力较弱,SLM 经常无法生成正确的解决方案,即使最终答案正确,中间步骤也常常存在缺陷或质量较差。此外,与 GPT-4 等高级模型相比,SLM 解决的挑战性问题较少。


如图 1 所示,为了减少错误和低质量的中间步骤,该研究提出了一种代码增强的 CoT 合成方法,该方法执行广泛的 MCTS 部署以生成逐步验证的推理轨迹,用 Q 值注释。

为了进一步提高 SLM 在挑战性问题上的性能,该研究提出了四轮自进化方案。在每一轮中,策略 SLM 和奖励模型都会更新为更强的版本,逐步解决更困难的问题并生成更高质量的训练数据。


最后,该研究提出了一种新颖的流程奖励模型训练方法,无需精确的每步奖励注释,从而产生更有效的流程偏好模型(PPM)。

实验评估

该团队在多个数学数据集上对 rStar-Math 进行了评估,并与多个模型进行了对比。具体设置请参阅原论文,这里我们主要来看研究结果。

主要结果

表 5 展示了 rStar-Math 与其它 SOTA 推理模型在不同的数学基准上的结果。


基于这些结果,该团队得出了三点观察:

  1. rStar-Math 显著提高了小语言模型(SLM)的数学推理能力,在模型规模显著缩小(1.5B-7B)的情况下,其性能可媲美甚至超越 OpenAI o1。

  2. 尽管使用了较小的策略模型(1.5B-7B)和奖励模型(7B),rStar-Math 的表现仍明显优于最先进的 System 2 基线。

  3. 除了 MATH、GSM8K 和 AIME 等可能存在过度优化风险的知名基准之外,rStar-Math 在其他具有挑战性的数学基准上表现出很强的通用性,包括 Olympiad Bench、College Math 和 Chinese College Entrance Math Exam(Gaokao),创下了新的最高分。


扩展测试时间计算。rStar-Math 使用了 MCTS 来增强策略模型,在 PPM 的引导下搜索问题的解。通过增加测试时间计算,它可以探索更多轨迹,从而可能实现性能提升。

在图 3 中,该团队通过比较官方 Qwen Best-of-N 在四个高难度数学基准上不同数量的采样轨迹的准确度,展示了测试时间计算扩展的影响。


消融研究和分析

该团队也进行了消融研究,证明了三项创新的有效性。

自我进化的有效性。表 5 展示了经过 4 轮 rStar-Math 自我进化深度思考后得到的结果。可以看到,表现很不错。

表 6 给出了每一轮的数学推理性能,可以明显看到其准确度在不断提高。


表 7 则展示了在不同数据集上微调的 Qwen2.5-Math-7B 的数学推理准确度。


该团队给出了两项重要观察:

  • 使用新提出的逐步验证的轨迹进行微调明显优于所有其他基线。这主要归功于用于代码增强型 CoT 合成的 PPM 增强型 MCTS,它能在数学解答生成期间提供更密集的验证。
  • 使用该团队的小语言模型,即使随机采样代码增强型 CoT 解答,得到的结果也可媲美或优于 GPT-4 合成的 NuminaMath 和 MetaMath 数据集。这表明,经过几轮自我进化后,新的策略 SLM 可以生成高质量的数学解答。这些结果证明新方法在不依赖高级 LLM 蒸馏的情况下,就具备自我生成更高质量推理数据的巨大潜力。

另外,在最后一轮策略模型的基础上,该团队比较了 ORM、PQM 和 PPM 在 System 2 推理上的性能。结果见表 8。


可以看到,PQM 和 PPM 都优于 ORM,因为它们可提供更密集的步骤级奖励信号,从而在复杂的数学推理任务上获得更高的准确度。然而,由于 Q 值固有的不精确性,PQM 在更难的基准测试(例如 MATH 和 Olympiad Bench)上表现不佳。相比之下,PPM 构建了步骤级偏好数据进行训练,使该团队的 7B 策略模型在所有基准测试中都能够实现与 o1-mini 相当或更优的性能。

发现与讨论

模型出现自我反思能力

OpenAI o1 的一个重要突破是它能自省。当它出错时,o1 能识别错误并自我纠正。这在开源 LLM 中一直难以实现。在实验中,该团队意外发现 MCTS 驱动的深度思考展现出了反思能力。如图 4 所示,模型最初在前三步使用 SymPy 形式化方程会写出错误答案(左分支)。



在我们的实验中,我们意外地观察到我们的 MCTS 驱动的深度思考在解决问题过程中表现出自反思。如图 4 所示,模型最初在前三步使用 SymPy 形式化方程,这将导致答案错误 (左分支)。

但在第四步,模型就识别出了前几步的问题(右分支),并主动回溯采用更简单的方法重新求解,最终得到正确答案。

值得注意的是,这种自反思能力是在没有专门训练和提示的情况下自发产生的,表明高级 System 2 推理可以自然培养出内在的自省能力。

PPM 塑造 System 2 深度思考的推理边界

策略模型和奖励模型对 System 2 深度推理都至关重要。实验表明,一旦策略模型达到相当强的能力水平,PPM 就成为决定性能上限的关键。

如下图 5 所示,通过加入 System 2 推理机制,即使是 Phi3.8B 这样的小模型也能获得显著性能提升,在多个数学基准测试中的准确率提高了约 20-30 个百分点。这表明,奖励模型(而不是基础模型的大小)才是决定最终性能的关键因素。


更多研究细节,请参阅论文原文。

参考链接:
https://arxiv.org/pdf/2501.04519
https://www.reddit.com/r/MachineLearning/comments/1hxk2ab/r_rstarmath_small_llms_can_master_math_reasoning/

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


引用:“rStar-Math 的开源会对教育行业产生哪些影响?”
我觉得可能会出现一些针对特定学科的辅导机器人,可以根据学生的学习进度和薄弱点提供个性化的学习方案和练习题。这对于提升学生的学习效率和学习体验应该会有很大帮助。

引用:“rStar-Math 的开源会对教育行业产生哪些影响?”
从长远来看,rStar-Math这类技术的开源可能会改变我们对教育的理解。想象一下,每个学生都能拥有一个AI导师,可以随时随地解答问题,提供个性化的学习建议。这可能会对现有的教育体系产生颠覆性的影响,甚至可能出现新的教育模式。当然,这其中也涉及到很多伦理和社会问题,比如如何确保教育公平,如何防止学生过度依赖AI等等。

引用:“rStar-Math 提到的“自我进化”具体是如何实现的?能否详细解释一下?”
文章里提到了四轮自我进化,每一轮策略模型和奖励模型都会更新。简单来说,就是模型会自己生成数据,然后用这些数据训练自己,不断迭代优化,变得越来越强。有点像打怪升级,越打怪越厉害。

引用:“rStar-Math 提到的“自我进化”具体是如何实现的?”
文中提到了MCTS,也就是蒙特卡洛树搜索。模型通过MCTS生成数据,并用这些数据训练策略SLM和奖励模型PRM。PRM会给策略模型的每一步打分,让它知道哪些步骤是好的,哪些是坏的。然后策略模型就会根据这些反馈不断改进,最终实现自我进化。有点像AlphaGo Zero自己跟自己下棋,越下越厉害。

引用:“除了数学推理,rStar-Math 的这种“深度思考”能力还能应用于哪些领域?”
像游戏AI、自动驾驶、金融市场预测这些领域,都需要进行复杂的决策和规划,rStar-Math的深度思考能力说不定也能派上用场。不过,这些领域的数据和数学推理不太一样,可能需要对模型进行一些调整。

引用:“除了数学推理,rStar-Math 的这种“深度思考”能力还能应用于哪些领域?”
我觉得在需要严谨逻辑推理的领域应该都能用得上,比如法律、医学诊断、程序代码生成等等。当然,具体效果如何还需要进一步研究。

引用:“rStar-Math 提到的“自我进化”具体是如何实现的?能否详细解释一下?”
“自我进化”的核心在于利用生成的训练数据进行迭代优化。每一轮进化中,策略模型和奖励模型都会基于上一轮的结果进行更新,从而逐步提升模型的推理能力。这就像一个螺旋上升的过程,模型在不断学习和改进中变得越来越强大。文章中提到的代码增强的 CoT 数据合成方法和过程奖励模型训练方法,都是为了更好地生成和利用训练数据,从而推动模型的自我进化。

引用:“除了数学推理,rStar-Math 的这种“深度思考”能力还能应用于哪些领域?”
从更广阔的视角来看,任何需要复杂推理和决策的领域都可能受益于 rStar-Math 的“深度思考”能力。例如,在科学研究中,它可以帮助科学家分析数据、提出假设、设计实验;在工程领域,它可以帮助工程师优化设计方案、预测潜在风险;在艺术创作领域,它甚至可以帮助艺术家探索新的创作思路和表达方式。当然,这需要我们对 rStar-Math 的核心技术进行更深入的研究和拓展,并结合具体领域的实际需求进行相应的调整和优化。

引用:“rStar-Math 的开源会对教育行业产生哪些影响?”
这东西要是开源了,那自动批改作业、出题什么的还不是小菜一碟?老师能省不少事儿,就是不知道会不会对辅导班的生意有影响,哈哈。