DeepMath-103K:突破大模型数学推理瓶颈的硬核数据集

DeepMath-103K数据集旨在突破大模型数学推理瓶颈,具有大规模、高难度、严格去污染和答案可验证等特性,助力AI实现深度思考和科学探索。

原文标题:103K「硬核」题,让大模型突破数学推理瓶颈

原文作者:机器之心

冷月清谈:

腾讯 AI Lab 与上海交通大学联合发布 DeepMath-103K 数据集,旨在解决当前大语言模型在数学推理中面临的数据瓶颈问题。该数据集具有大规模、高难度、严格去污染和答案可验证等特性。DeepMath-103K 包含约 103,022 个数学问题,难度分布偏向高难度,数据来源于 Math StackExchange 等多样化渠道,确保新颖性和独特性。通过四阶段构造流程,严格去除与现有基准的重叠,保证数据质量。数据集中的每条数据包含问题、最终答案、难度、主题和多种推理路径,支持多种数学推理研究和应用。DeepMath 系列模型在多个基准上达到 SOTA 效果,并展示了从数学到科学的推理泛化能力。DeepMath-103K 的发布为人工智能数学推理领域带来了新的突破,推动 AI 能够真正学会 “深度思考”,走向更广阔的科学探索。

怜星夜思:

1、DeepMath-103K数据集强调了数据质量和去污染的重要性,那么在其他AI领域,例如自然语言处理或图像识别,我们应该如何借鉴这种思路来构建更高质量的数据集?
2、DeepMath-103K 的构建成本非常高昂,这是否意味着只有大型机构才能构建高质量的AI数据集?对于小型团队或个人研究者来说,是否有更经济有效的方案?
3、DeepMath 系列模型展现了从数学到科学的推理泛化能力,这种能力对于通用人工智能(AGI)的发展有何意义?我们应该如何进一步提升模型的这种泛化能力?

原文内容


本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。


本文的通讯作者为涂兆鹏,腾讯混元数字人专家研究员,研究方向为深度学习和大模型,在国际顶级期刊和会议上发表学术论文一百余篇,引用超过 10000 次,担任 SCI 期刊 NeuroComputing 副主编,多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。共同通讯作者王瑞,上海交通大学副教授,研究方向为计算语言学。第一作者为上海交通大学博士生何志威,腾讯 AI Lab 高级研究员梁添、徐嘉豪。


在 AGI 的浩瀚征途中,数学推理能力始终是衡量其智能水平的关键试金石。然而,当前大语言模型(LLM)在数学推理,特别是通过强化学习(RL)进行训练时,正面临着前所未有的数据瓶颈:现有数据集普遍缺乏挑战性和新颖性、答案难以验证,且常与评估基准存在 “污染” 问题。


为了解决以上问题,DeepMath-103K 数据集横空出世,它以其大规模、高难度、严格去污染和可验证答案的特性,为 AI 数学推理领域带来进一步突破。



  • 论文题目:DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

  • 论文地址:https://arxiv.org/pdf/2504.11456

  • 数据地址:https://hf.co/datasets/zwhe99/DeepMath-103K

  • 模型地址:https://hf.co/collections/zwhe99/deepmath-6816e139b7f467f21a459a9a

  • 代码地址:https://github.com/zwhe99/DeepMath


痛点:现有数据集为何 “拖后腿” ?


想象一下,你正在训练一个 AI 数学家,但它手里的 “习题集” 却有诸多缺陷:


  • 难度不够:题目过于简单,无法真正挑战模型的推理极限。

  • 答案难验:缺乏标准化、可验证的答案格式,让强化学习的奖励机制无从下手。

  • 数据污染:训练数据与测试基准存在重叠,无法真实反映能力。

  • 缺乏新意:大多是对现有资源的简单重组,新颖性和多样性严重不足。   


这些问题,就像给 AI 数学家戴上了 “镣铐”,即使模型架构再先进,也难以施展拳脚,更别提实现真正的 “深度思考” 和泛化能力。


DeepMath-103K:AI 数学推理的 “硬核” 解决方案


为了打破这些桎梏,DeepMath-103K 应运而生。它是一个包含约 103,022 个数学问题的全新大规模数据集,专为通过强化学习训练高级推理模型而设计。


1. 规模与难度:专为 “极限挑战” 而生


DeepMath-103K 的显著特点是其高难度。其中 95K 个问题被精心构造为难度等级 5-10,另有 8K 个来自 SimpleRL 的问题(难度等级 3-5)以确保更广泛的难度覆盖。这种难度分布明显偏向高难度,旨在推动当前模型的推理极限,与现有其它数据集形成鲜明对比。



2. 数据新颖性:告别 “千篇一律”


与许多现有开放数据集不同,DeepMath-103K 主要从 Math StackExchange 等更多样化但结构性较差的来源获取内容。这种方法将非正式讨论转化为结构化问答,带来了显著的新颖性和多样性


在涵盖的主题上,DeepMath-103K 包含了从基础概念(如初等代数、平面几何)到高级主题(如抽象代数、微积分、数论、几何、概率、离散数学等)的广泛数学领域 。这种分层且全面的主题覆盖,确保了模型能够接触到不同复杂度、不同类型的数学问题,从而促进在不同数学领域中通用推理能力的发展。



对数据集内容的深入分析表明,DeepMath-103K 在问题新颖性和独特性方面表现出压倒性优势。在对数据集的问题进行嵌入化,降维,可视化后,我们惊人地发现大多数数据集的问题分布极其雷同(蓝色点簇)。而 DeepMath-103K 的问题(红色点簇)则在空间中形成了一个与众不同的分布。



进一步地,在总计约 103K 个问题中,高达 82.81K 个问题是独一无二的,这意味着它们在其它数据集中从未出现过。



这直观地表明,DeepMath-103K 的问题集合在语义和结构上与现有数据集存在显著差异,避免了 “炒冷饭” 的问题,为模型提供了真正新颖的训练样本。


3. 严格去污染:确保评估 “纯净”


DeepMath-103K 的构建过程堪称 “匠心独运”,通过一个细致的四阶段构造流程



1. 来源分析与收集:分析现有数据来源,选择难题比例高的数据源。

2. 数据去污染:使用嵌入相似性搜索和 LLM-Judge 来识别并消除与 MATH、AIME、AMC、Minerva Math、OlympiadBench 等 17 个数学和 STEM 基准的重叠,确保评估的完整性并防止数据泄露。



3. 难度过滤:使用 GPT-4o 对问题进行难度评估,保留难度等级 5 或更高的问题。

4. 答案验证:采用两阶段流程,确保所有解决方案路径中的最终答案一致且可验证。


这个过程的计算成本极其高昂:约 138,000 美元的费用和 127,000 小时的 H20 GPU 时间 。这足以证明其在数据质量和纯净度上的巨大投入。


4. 独特结构:为 RL 训练 “量身定制”


DeepMath-103K 中的每条数据都包含丰富的信息,支持多种数学推理研究和应用 :   


  • 问题:核心的数学问题陈述。

  • 最终答案:可靠且可验证的最终答案,这对于在可验证奖励强化学习(RLVR)中基于规则的奖励函数至关重要,是自动化评估和反馈的基础。

  • 难度:数值难度标注,支持难度感知训练。

  • 主题:分层主题分类,涵盖从初等代数到抽象代数、微积分的广泛数学主题。

  • R1 解决方案:由 DeepSeek-R1 模型生成的三种不同的推理路径。这些多重解决方案对于监督微调和模型蒸馏等多种训练范式都具有巨大价值。



DeepMath 系列模型在多个基准上达到 SOTA


  • Zero RL(从 Base model 直接开始 RL): DeepMath-Zero-7B 和 DeepMath-Zero-Math-7B 从 Qwen-2.5-7B 和 Qwen-2.5-Math-7B 模型开始训练,表现出显著的性能提升,并在所有评估基准上取得了新的 SOTA 结果。

  • RL(从 Instruct model 开始 RL):基于 R1-Distill-Qwen-1.5B 初始化的 DeepMath-1.5B 取得了优异的性能;从 OpenMath-Nemotron-1.5B 开始的 DeepMath-Omn-1.5B 在所有评估基准上都获得了 1.5B 规模模型中新的 SOTA 结果,甚至超越了 o1-mini 和 o3-mini (low effort)



可泛化的推理:从数学到科学的飞跃


DeepMath 系列模型展示了将其推理能力从纯数学领域泛化到更广泛的科学领域的显著能力。与基线模型相比,它们在涵盖生物学、物理学和化学的 GPQA-Diamond 基准上取得了卓越的性能。这支持了强大的数学推理并非孤立技能,而是一种基础性认知能力,支撑着更广泛的科学和逻辑理解的假设。



结语


DeepMath-103K 的发布,无疑为人工智能数学推理领域形成了新的突破。它不仅解决了数据瓶颈问题,更通过其独特的设计和卓越的性能,证明了精心构造的高质量训练数据在推动 AI 前沿方面的深远价值。我们期待,在 DeepMath-103K 的推动下,AI 能够真正学会 “深度思考”,从数学的逻辑殿堂走向更广阔的科学探索,最终迈向更强大、更具通用性、认知上更复杂的智能系统!



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

泛化能力是 AGI 的核心能力之一。DeepMath 的突破表明,数学推理可能是通往 AGI 的一条重要路径。要进一步提升泛化能力,我觉得可以尝试以下方法:

* 增加训练数据的多样性:不仅仅是数学题,还要包括其他领域的知识,例如物理、化学、生物等。
* 引入更复杂的模型结构:例如Transformer-XL、Sparse Transformer 等,以捕捉更长距离的依赖关系。
* 采用更有效的训练方法:例如对比学习、自监督学习等,以提高模型的学习效率。

此外,还需要加强对模型的可解释性研究,以便更好地理解模型的推理过程。

与其说是“借鉴”,不如说是“回归初心”。AI 本质上是“喂”出来的,喂的“饲料”不好,效果自然不行。DeepMath-103K 只是再次提醒我们,高质量数据是多么重要。说白了,就是别偷懒,别想着靠算法解决所有问题。数据清洗、标注,这些脏活累活,该干还得干啊!

别把 AGI 想得太复杂!AI 的本质还是模式识别。DeepMath 能够从数学泛化到科学,说明数学和科学之间存在某种共通的模式。要进一步提升泛化能力,就要想办法让模型能够更好地学习和识别这些模式。我觉得可以尝试从以下几个方面入手:

* 抽象化:将不同领域的知识抽象成统一的表示形式,例如符号、向量等。
* 模块化:将模型分解成多个模块,每个模块负责处理特定的任务。
* 组合化:将不同的模块组合在一起,以解决更复杂的问题。

DeepMath 系列模型展现的推理泛化能力,是 AGI 发展的重要一步。这意味着 AI 不再只是解决特定领域的问题,而是能够将学到的知识和技能应用到更广泛的领域中。这种泛化能力,是 AGI 走向通用性的关键。为了进一步提升模型的泛化能力,我认为可以从以下几个方面入手:

1. 多模态学习:将文本、图像、音频等多种模态的数据融合在一起,让模型能够从不同的角度理解世界。
2. 因果推理:让模型能够理解事物之间的因果关系,而不是仅仅停留在表面上的关联。
3. 知识图谱:构建大规模的知识图谱,让模型能够利用已有的知识进行推理。
4. 元学习:让模型能够学会学习,从而更快地适应新的任务和环境。
5. 持续学习:让模型能够不断地学习新的知识和技能,从而保持自身的竞争力。

总之,提升模型的泛化能力是一个复杂而长期的过程,需要我们不断地探索和创新。

我觉得“开源”是一个很好的思路。可以考虑将数据集的构建过程开源,让更多的人参与进来,共同完善数据集。同时,也可以借鉴开源软件的模式,采用“社区维护”的方式,不断更新和维护数据集。

此外,还可以考虑与高校合作,利用学生的资源来降低数据采集和标注的成本。很多高校都有相关专业的学生,他们可以为数据集的构建提供专业的支持。

其实啊,我觉得关键在于“共享”。现在很多机构手里都握着大量数据,但是往往没有充分利用起来。如果能够建立一个“数据共享平台”,让大家能够共享数据资源,那就能大大降低数据集构建的成本了。当然,这需要解决数据安全和隐私保护等问题。

这是一个很好的问题!DeepMath-103K 的思路可以这样借鉴:

1. 明确目标,精准采集:明确数据集要解决的核心问题,避免大而全。像DeepMath-103K那样,针对强化学习训练数学推理模型,就重点关注高难度、可验证的数学题。
2. 来源多样,避免同质化:不要只依赖于单一来源的数据。DeepMath-103K 从 Math StackExchange 获取数据,打破了传统数据集的同质化。
3. 严格去污染,保障评估公平:这是非常关键的一步!要像 DeepMath-103K 那样,细致地进行数据去重和去污染,确保模型评估的公平性。
4. 精细标注,支持多种应用:数据标注要尽可能详细,以便支持不同的训练范式。DeepMath-103K 包含了问题、答案、难度、主题等信息,为模型提供了更丰富的学习素材。

在自然语言处理中,可以考虑构建一个针对特定任务(例如情感分析、机器翻译)的高质量数据集,从社交媒体、电影评论、新闻报道等多个来源采集数据,并进行严格的清洗和标注。在图像识别领域,可以构建一个针对特定场景(例如医疗影像、自动驾驶)的数据集,从不同的医院、传感器采集数据,并进行精细的标注和校正。

我觉得可以从以下几个方面入手:

* 数据源头的把控:在NLP中,可以关注高质量的学术论文、书籍等,在图像识别中,可以与专业机构合作,获取更精准的数据。
* 数据清洗的精细化:不仅仅是去重,还要关注数据本身的质量,例如文本的语法错误、图像的清晰度等。
* 标注的专业性:引入领域专家进行标注,确保标注的准确性和一致性。

当然,成本也是一个重要的考量因素。如何在保证数据质量的前提下,降低数据集构建的成本,也是我们需要思考的问题。

构建高质量数据集的确需要一定的投入,但并非只有大型机构才能做到。小型团队或个人研究者可以尝试以下方案:

1. 聚焦特定领域或任务:避免追求大而全的数据集,选择自己擅长的领域或感兴趣的任务,集中精力构建一个高质量的小型数据集。
2. 利用现有资源:充分利用已有的公开数据集,并在此基础上进行二次开发或扩充。
3. 众包或合作:通过众包平台或与他人合作,共同完成数据采集、清洗和标注工作。
4. 主动学习:利用主动学习算法,选择最有价值的数据进行标注,从而降低标注成本。
5. 数据增强:通过数据增强技术,扩充数据集的规模,提高模型的泛化能力。

总之,小型团队或个人研究者可以通过巧妙的策略和技术手段,在有限的资源下构建出高质量的 AI 数据集。