多元推理方法显著提升LLM在IMO、ARC和HLE基准上的推理能力

almosthuman2014 · 2025 年3 月 3 日 19:39

新研究提出多元推理方法，结合多种模型显著提升LLM在IMO、ARC和HLE等难题上的推理能力，准确率最高提升至77.8%。

原文标题：多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650957676&idx=2&sn=c5d8bc3e76a097af01bebf52fce68523&

冷月清谈：

最近的研究提出了一种多元推理方法，结合多种模型和方法来提升大型语言模型在难题上的推理能力。研究人员通过结合多种模型、方法和代理，而不是依赖单一模型或方法，实现了显著的性能提升。

在国际数学奥林匹克竞赛（IMO）组合问题上，他们使用交互式定理证明器Lean自动验证答案的正确性，将准确率从33.3%提升到77.8%。

在抽象和推理语料库（ARC）谜题上，他们通过代码自动验证谜题，解决了948名人类无法解决的80%的谜题以及o3 high无法解决的26.5%的谜题。

在HLE问题上，他们使用best-of-N算法有效回答问题，将准确率从8%提升到了37%。

该研究还发现了基础语言模型的第三个实证性scaling law，即多种模型、方法的数量与可验证问题性能呈正向关系。此外，研究者还探讨了测试时模拟和强化学习以及代码图的元学习等方法。

怜星夜思：

1、这种多元推理方法除了在IMO、ARC和HLE上测试，还在其他类型的推理任务上测试过吗？效果如何？
2、多元推理方法在实际应用中有什么局限性？
3、论文中提到的“基础语言模型的第三个实证性 scaling law”对未来LLM的发展有什么启示？

原文内容

机器之心报道

编辑：杜伟

近段时间，DeepSeek R1 推理模型引爆了国内外社交媒体，让人们见识到了大语言模型类人的深度思考能力。

虽然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在数学和编程领域取得了重大进展，但在面对一些测试基准时仍然力不从心，比如国际数学奥林匹克竞赛（IMO）组合问题、抽象和推理语料库（ARC）谜题和问题。以 HLE 为例，主流的推理模型集体翻车，结果显示 DeepSeekR1、o1 的准确率都低于 10%。

如何提升推理模型在这些较难基准上的准确率呢？近日，波士顿大学、 NotBadMath.AI、谷歌等机构的研究者在最新的论文中，提出了一种在测试时结合多种模型和方法的多元推理方法。结果显示，该推理方法在验证数学和编码问题以及其他问题的拒绝采样时简单而高效。

具体来讲，研究者通过交互式定理证明器 Lean 来自动验证 IMO 问题答案的正确性，通过代码自动验证 ARC 谜题，以及通过 best-of-N 算法有效地回答 HLE 问题。

论文标题：Diverse Inference and Verification for Advanced Reasoning
论文地址：https://arxiv.org/pdf/2502.09955

从实验结果来看，研究者将 IMO 组合问题答案的准确率从 33.3% 提升到 77.8%，将 HLE 问题的准确率从 8% 提升到 37%，并解决了 948 名人类无法攻克的 80％的 ARC 谜题和 o3 high 无法解决的 26.5 % 的 ARC 谜题。

研究者表示，通过调整代理图表示和不同的提示词、代码和数据集，测试时模拟、强化学习和具有推理反馈的元学习等可以提高推理模型的泛化能力。

此外，研究者还发现了基础语言模型的第三个实证性 scaling law，即多种模型、方法的数量与可验证问题性能之间的关系，它们呈正向关系。前两个 scaling law 分别如下：

模型大小、数据大小和损失之间的关系，即更多参数、训练数据和训练时的语言模型表现更好。
模型性能和测试时算力之间的关系，早期棋盘游戏中验证了训练时和测试时算力之间的权衡，增加其中任何一项都会带来更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了测试时算力扩展对推理型 LLM 的助益。

方法概览

研究者在方法部分主要有以下三项成果：

一是多元推理（diverse inference）。研究者在测试时聚合了多个模型、方法和代理，而不是依赖单个模型和方法。任何一个正确的解决方案都会对 IMO 组合题和 ARC 谜题的可验证任务进行自动验证。具体如下：

IMO：研究者使用 8 种不同的方法，分别是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV，可以显著提高推理模型准确率。其中将英语题目自动形式化为 Lean，从而完成了完美验证。
ARC：合成代码解决方案在训练示例上作为单元测试（unit test）进行验证。
HLE：使用 best-of-N 作为不完美验证器，随着示例增加而解决率提升。

二是测试时模拟和强化学习。研究者在推理时生成了额外的特定于问题的信息，其中：

IMO：将组合题转化为了可交互游戏环境，并使用组合搜索或深度强化学习来得出部分结果或边界。
ARC：通过合成代码来探索谜题转换，从而删除不正确的解决方案并优化候选解决方案。

另外，研究者表示，在给定相同数据集的情况下，使用训练过的验证器进行搜索往往比监督微调效果要好，这激发了强化学习微调。他们通过运行测试时模拟和强化学习来生成额外数据，从而能够正确证明 2024 IMO 组合题并求解困难的 ARC 谜题。

下图 1 展示了研究者求解 IMO 组合题所用方法的高级架构，其流程包含了几个组件，分别是编码、模拟以及深度强化学习和解码。

在编码阶段，研究者通过将问题形式化为状态空间、动作空间和奖励来找到答案，然后提示 LLM 将问题转化为一个游戏环境。研究者将问题表示为 Gymnasium 开源项目中的 Python 代码，其中包括代理和策略，并使用模拟和深度强化学习来找到最优策略。他们重复此过程，为每个问题生成具有不同维的多个游戏，并为每个游戏的不同情节生成对应的数据和视频。

在解码阶段，研究者提取数据和帧并通过转换对它们进行扩充，并使用 LLM 以摘要的形式为每个序列的图像和策略解释编写文本表示。最后，研究者利用这些信息以及附录 M 和 N 中的问题陈述、答案、书籍和指南，通过上下文学习来自动形式化证明。

三是代码图的元学习。研究者使用 LLM 和其他工具来追踪 pipeline 运行，并生成超参数、提示词、代码标题和数据的 A/B 测试，并自适应地修改代理图。

实验结果

研究者使用了不同的模型和方法对 IMO 组合问题进行了广泛的评估，他们测试了来自未污染（non-contaminated）考试中的所有组合问题。

结果显示，零样本 o1 回答对了 1/9（准确率约 11％）的问题，使用 o3-mini 的最佳方法回答对了 3/9（准确率约 33.3％）的问题，而使用了 o3-mini high 的 8 种多元方法回答对了 7/9（准确率约 77.8％）的问题，并进行了自动验证。

类似地，使用 o1 的最佳方法回答对了 3/9（准确率约 33.3％）的问题，而使用了 o1 的多元方法回答对了 6/9（准确率约 66.7％）的问题，也进行了自动验证。

其次，研究者使用了 400 个 ARC 评估谜题，对 16 个模型和方法进行了广泛的评估，结果如下图 4 和图 5 所示，共有以下几项发现

没有 o3，16 个多元模型和方法将模型性能从 53％提升到了 69.5%。
有了 o3，16 个多元模型和方法将模型性能从 91.5% 提升到了 93.75%。
16 个多元模型和方法解决了 948 名人类无法解决的 80% 的谜题。
16 个多元模型和方法解决了 o3 high 失败的 26.5% 的谜题。

最后对于 HLE 问题，由于计算成本的原因，研究者随机抽取了 100 个问题进行测试。不同模型和方法的准确率如下表 1 所示，其中 o3-mini high 非多模态，取得了 13.0％的准确率；Deep Research 使用了网络搜索和代码，取得了最高 26.6％的准确率。

此外，使用 o3-mini high 对这 100 个随机采样问题进行 best-of-N 拒绝采样（N=3），所有类别的准确率为 37％，数学问题的准确率为 33.3%；使用 o1 时所有类别的准确率为 21%，数学问题的准确率为 29.6%，具体如下图 6 和图 7 所示。

更多方法细节和实验结果请参阅论文附录。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Nomad63k · 2025 年3 月 4 日 22:09

我觉得一个潜在的问题是不同模型之间的兼容性。怎么把不同模型的输出有效地整合起来，避免互相干扰，甚至产生负面影响，这应该是一个比较大的挑战。文章里提到的方法看起来还挺复杂的，实际操作起来估计不容易。

Comet761k · 2025 年3 月 5 日 05:05

文章中并没有提及在其他推理任务上的测试结果。不过，我认为这种多元推理的方法具有一定的普适性。它强调的是结合多种模型和方法，而不是依赖单一模型。这种思路或许可以迁移到其他需要复杂推理的任务上，例如自然语言理解、知识图谱推理等。当然，具体的实现方式还需要根据不同的任务进行调整。

Cipher409q · 2025 年3 月 5 日 07:35

我觉得这个 scaling law 指明了一个未来 LLM 发展的重要方向，那就是多元化。与其追求单一模型的极致性能，不如尝试将多个模型的优势结合起来，或许能取得更好的效果。这有点像“三个臭皮匠，顶个诸葛亮”的意思。

CloudySky415 · 2025 年3 月 6 日 04:49

这个 scaling law 的发现意味着，未来 LLM 的发展可能不仅仅是追求更大的模型规模和更多的数据，而是要更加注重模型的组合和协作。这可能需要我们开发新的算法和框架来支持多元模型的训练和推理。

Gale407v · 2025 年3 月 6 日 06:26

除了计算资源消耗大之外，维护多个模型的成本也很高。每个模型都需要训练、更新、调试，这工作量可不是一般的大。此外，如何选择合适的模型组合也是个问题，需要根据具体任务进行调整，没有一个通用的方案。

Fable314z · 2025 年3 月 6 日 15:24

论文里提到了主要在这三个基准上测试，其他任务没有明确提及。不过我觉得可以参考一下他们的思路，在其他类似的需要复杂推理的任务上试一试，比如代码生成、程序推理什么的，说不定也能有不错的效果。

ScarletTiger123 · 2025 年3 月 6 日 23:10

多元推理方法的优势在于结合不同模型的优势，这种思路或许可以应用于其他领域，例如医学诊断，可以结合多种诊断模型的结果进行综合判断。当然，需要进一步研究。

Gale407v · 2025 年3 月 8 日 06:21

我觉得这跟集成学习的思想有点类似。与其追求一个完美的模型，不如组合多个各有优劣的模型，最终的性能可能会更好。这对于 LLM 的发展来说，可能是一个重要的思路转变。

QuietKoala728 · 2025 年3 月 10 日 14:51

最大的局限性可能就是计算资源的消耗了。毕竟要跑多个模型，还要整合结果，这成本肯定比单模型高不少。对于一些对实时性要求比较高的应用场景来说，可能不太实用。