上交大LIMO:仅用817个样本,如何让模型推理性能提升7倍?

上交大LIMO方法仅用817个样本,即可在数学推理任务上超越主流大模型,展现了“少即是多”的潜力。

原文标题:817样本如何激发模型7倍推理性能,上交大LIMO论文作者亲自解读

原文作者:机器之心

冷月清谈:

上海交通大学的研究团队提出了一种名为LIMO(Less Is More for Reasoning)的方法,该方法仅用817条精心设计的训练样本,就在数学竞赛级别的题目上实现了远超许多最先进模型(包括使用十万量级高质量数据训练的模型)的推理性能。LIMO的核心在于认识到大型语言模型在预训练阶段已经积累了丰富的数学知识,而提升推理能力的关键在于激活这些潜能,而非简单地堆砌数据。通过关注推理链的质量、问题的难度层次以及预训练知识的深度,LIMO在AIME等数学竞赛中取得了显著的成果,也为AI推理能力的发展提供了新的思路。

怜星夜思:

1、LIMO方法强调推理链的质量,那么如何评估和改进推理链的质量呢?有没有一些具体的指标或方法?
2、文章提到预训练知识的深度对推理能力至关重要,那么如何加深模型的预训练知识,除了增加数据量还有哪些有效途径?
3、LIMO 的成功是否意味着“大力出奇迹”的时代即将终结?未来大模型训练的趋势会是什么?

原文内容

图片


OpenAI  o1 系列的推出,正式打响了 LLM 推理能力竞赛的第一枪。而在刚刚过去的 1 月, DeepSeek R1 发布,性能追平 o1,引发全球复现狂潮。


各大公司、研究机构纷纷遵循这一范式:用更庞大的数据集,结合更复杂的强化学习(RL)算法,试图「教会」模型如何推理。


「更大即更强」似乎已成为大家共识。


然而,最近上海交通大学的研究团队却指出:在数学推理领域,这种传统认知可能需要重新审视。


他们的研究 LIMO(Less Is More for Reasoning)表明,仅需 817 条精心设计的训练样本,就能让模型在数学竞赛级别的题目上超越当前许多最先进模型 (o1-preivew, QwQ 等),包括使用十万量级高质量数据训练的模型。

这一突破建立在两个关键洞察之上:


首先,现代大语言模型在预训练阶段已经积累了海量数学知识(如 Llama3 仅在数学推理上的训练数据达 3.7T token,而 Llama2 的全部训练数据仅有 1.8T);


其次,推理能力的提升更依赖于推理过程的质量而非数据量的堆砌。研究团队提出,大模型的推理能力本质上是「潜伏的」而非「缺失的」,关键在于如何有效激活这些能力。


实验结果有力支持了这一理论:在美国数学竞赛邀请赛(AIME)2024 中,LIMO 的准确率达到 57.1%,显著超越了传统方法;在 10 个不同的多学科多语言基准测试上,它实现了 40.5% 的绝对性能提升。


值得一提的是,在刚刚发布的 AIME 2025 Part1 中,LIMO 依然保持极高的泛化性,取得了 46.7% 的正确率,超过了 o3-mini-low、s1-32B 等模型。研究还揭示了提升推理能力的三个关键因素:推理链的质量、问题的难度层次,以及预训练知识的深度。这一发现不仅为 AI 推理能力的突破提供了新思路,也将带来更高效的模型训练范式。


为了更好的帮助大家了解 LIMO,机器之心最新一期线上分享邀请到了论文作者叶懿芯以及黄臻,为大家进行深度剖析。感兴趣的读者,还可以参考机器之心此前报道《》了解更多内容。



分享主题:LIMO:八百样本激发强推理能力


嘉宾介绍:叶懿芯,上海交通大学三年级本科生,创智学院 / 交大 GAIR Lab 实习生,导师为刘鹏飞副教授。研究兴趣为大语言模型的复杂推理、基础研究、预训练及多模态。已在 NeurIPS、ECCV 等顶级国际会议上发表多篇论文,主导 / 参与了 AIME-Prievew、O1-journey、OlympicArena 等多个开源项目。


个人主页:https://bleaves.github.io/


黄臻,苏州大学四年级本科生,创智学院 / 交大 GAIR Lab 准博士,导师为刘鹏飞副教授。主要研究方向为大语言模型强推理能力的评估与提升,包括推理能力评估基准构建、高效数据工程策略以及 inference-time scaling 技术应用。已在 NeurIPS 等顶级国际会议上以第一作者身份发表多篇论文,同时主导 / 参与了 OlympicArena、O1-journey 等多个开源项目。


个人主页:zhenhuang02.notion.site


分享摘要:本次分享将详细介绍 LIMO 方法如何通过精选的 817 条样本,在数学推理任务上超越主流大模型。我们将深入探讨推理链设计、问题选择等关键技术,以及「少即是多」原则对 AI 发展的深远影响。


相关链接:


  • 论文标题:LIMO: Less is More for Reasoning

  • 论文地址:https://arxiv.org/pdf/2502.03387

  • 代码地址:https://github.com/GAIR-NLP/LIMO

  • 数据集地址:https://huggingface.co/datasets/GAIR/LIMO

  • 模型地址:https://huggingface.co/GAIR/LIMO

直播时间北京时间 2 月 13 日 19:00-20:00

直播预约:


本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。


机器之心 · 机动组

机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。

点击阅读原文,查看往期回顾。

我觉得持续学习也是一个很有潜力的方向。可以让模型不断地学习新的知识,并在学习过程中不断地巩固和完善已有的知识,就像人类的学习过程一样。

对于“如何评估和改进推理链的质量”这个问题,我认为可以从逻辑的严谨性、步骤的清晰度、知识的准确性等方面入手。比如,可以检查推理链中是否存在逻辑跳跃、循环论证等问题;可以看推理步骤是否足够细致,能否让人轻松理解;还可以验证推理过程中使用的知识是否正确无误。改进的话,可以尝试使用一些工具,例如自动定理证明器,来辅助检查和优化推理链。

我觉得一个重要的指标是推理链的可解释性。一个好的推理链应该能够清晰地展现模型的思考过程,让人理解模型是如何一步步得出结论的。改进推理链质量的一个方法是引入人类专家进行评估和反馈,通过人工干预来识别和纠正推理链中的错误或不足。

关于“大力出奇迹”是否终结,我觉得现在下结论还为时过早。LIMO 的成功确实表明,在某些特定领域,精细的设计和少量高质量的数据也能取得很好的效果。但这并不意味着数据量不再重要。对于一些需要海量知识的任务,例如通用语言理解,大规模数据仍然是不可或缺的。未来的趋势可能是根据具体任务的需求,选择合适的训练策略,而不是一味追求数据规模。

未来大模型训练的趋势,我猜想可能会更注重效率和可持续性。如何在有限的计算资源下,更高效地训练模型,将是一个重要的研究方向。此外,模型的可解释性和安全性也将越来越受到重视。

我比较认同“大力出奇迹”和“小而美”的模型将长期共存。未来可能会有更多像 LIMO 这样的模型出现,专注于特定领域,并取得突破性进展。同时,大型通用模型也会继续发展,为各种应用提供基础能力。不同类型的模型将相互补充,共同推动 AI 的发展。

关于加深模型预训练知识的途径,除了增加数据量,我觉得改进预训练的目标函数也很重要。可以设计更有效的目标函数,引导模型学习更深层次的知识表示,例如,可以尝试将知识图谱融入预训练过程中,让模型学习实体之间的关系和语义信息。

还可以考虑优化预训练的学习策略。例如,可以采用课程学习的方式,先让模型学习简单的知识,再逐步学习更复杂的知识;或者采用自监督学习的方式,让模型从数据中自动发现和学习知识。

评估推理链质量,还可以考虑其泛化能力,即该推理链能否应用于其他类似问题。如果一个推理链只能解决特定问题,那么它的价值就有限。改进方面,可以尝试将推理链分解成更小的模块,并对这些模块进行组合和重用,从而提高推理链的泛化能力和可扩展性。