MARGE通过命中引导探索提升LLM数学推理能力,无需额外标注或训练,提升了准确率和多样性。
原文标题:【ICML2025】MARGE:通过引导式探索提升大型语言模型的数学推理能力
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到MARGE缓解了“性能权衡问题”,具体指的是什么?这种权衡在其他LLM对齐方法中常见吗?
3、MARGE在数学推理之外,是否有可能应用到其他需要复杂推理的领域?如果可以,你认为哪些领域最有潜力?
原文内容

来源:专知本文约1000字,建议阅读5分钟我们提出 MARGE,这是一种通过命中引导探索提升数学推理能力的新方法。

大型语言模型(LLMs)在数学推理方面展现出强大潜力,然而其效果常受限于高质量问题数量不足。为克服这一限制,研究者尝试通过自生成数据扩大计算响应规模,但现有方法在推理各阶段的探索效率较低,容易引入虚假的相关性数据,导致性能受限。为解决这一挑战,我们提出 MARGE(Improving Math Reasoning with Guided Exploration),这是一种通过命中引导探索(hit-guided exploration)提升数学推理能力的新方法。
MARGE系统性地探索由模型自生成解答中提取的中间推理状态,实现充分的推理空间探索,并在整个过程中改进归因机制。我们在多个主干模型与标准基准测试上的广泛实验表明,MARGE在不依赖外部标注或额外训练价值模型的前提下,显著提升了模型的推理能力。值得一提的是,MARGE同时提升了单轮推理准确率与探索多样性,有效缓解了现有对齐方法中常见的性能权衡问题。
实验结果表明,MARGE在增强数学推理能力、释放自生成训练数据的潜力方面具有显著效果。我们的代码与模型已开放获取。

关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU