新研究提出多元推理方法,结合多种模型显著提升LLM在IMO、ARC和HLE等难题上的推理能力,准确率最高提升至77.8%。
原文标题:多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
原文作者:机器之心
冷月清谈:
在国际数学奥林匹克竞赛(IMO)组合问题上,他们使用交互式定理证明器Lean自动验证答案的正确性,将准确率从33.3%提升到77.8%。
在抽象和推理语料库(ARC)谜题上,他们通过代码自动验证谜题,解决了948名人类无法解决的80%的谜题以及o3 high无法解决的26.5%的谜题。
在HLE问题上,他们使用best-of-N算法有效回答问题,将准确率从8%提升到了37%。
该研究还发现了基础语言模型的第三个实证性scaling law,即多种模型、方法的数量与可验证问题性能呈正向关系。此外,研究者还探讨了测试时模拟和强化学习以及代码图的元学习等方法。
怜星夜思:
2、多元推理方法在实际应用中有什么局限性?
3、论文中提到的“基础语言模型的第三个实证性 scaling law”对未来LLM的发展有什么启示?
原文内容
机器之心报道
-
论文标题:Diverse Inference and Verification for Advanced Reasoning
-
论文地址:https://arxiv.org/pdf/2502.09955
-
模型大小、数据大小和损失之间的关系,即更多参数、训练数据和训练时的语言模型表现更好。
-
模型性能和测试时算力之间的关系,早期棋盘游戏中验证了训练时和测试时算力之间的权衡,增加其中任何一项都会带来更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了测试时算力扩展对推理型 LLM 的助益。
-
IMO:研究者使用 8 种不同的方法,分别是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以显著提高推理模型准确率。其中将英语题目自动形式化为 Lean,从而完成了完美验证。
-
ARC:合成代码解决方案在训练示例上作为单元测试(unit test)进行验证。
-
HLE:使用 best-of-N 作为不完美验证器,随着示例增加而解决率提升。
-
IMO:将组合题转化为了可交互游戏环境,并使用组合搜索或深度强化学习来得出部分结果或边界。
-
ARC:通过合成代码来探索谜题转换,从而删除不正确的解决方案并优化候选解决方案。
-
没有 o3,16 个多元模型和方法将模型性能从 53%提升到了 69.5%。
-
有了 o3,16 个多元模型和方法将模型性能从 91.5% 提升到了 93.75%。
-
16 个多元模型和方法解决了 948 名人类无法解决的 80% 的谜题。
-
16 个多元模型和方法解决了 o3 high 失败的 26.5% 的谜题。