DeepSeek-Math-V2开源:通过自验证机制实现奥数金牌水平的数学推理大模型

DeepSeek-Math-V2开源,首个IMO金牌级数学模型!独创自验证机制,引领AI数理推理新范式。

原文标题:“在数学上,中国模型没输过”!DeepSeek 深夜屠榜,Math V2 以碾压姿态终结“最强数学模型”之争

原文作者:AI前线

冷月清谈:

11月27日晚,DeepSeek无预告地开源了其全新数学推理模型DeepSeek-Math-V2,这款685B参数量的模型专注于数学领域,是业内首个达到国际奥林匹克数学竞赛(IMO)金牌水平且全面开源的模型。在权威基准IMO-ProofBench的Basic子集上,Math-V2取得了近99%的高分,领先谷歌Gemini DeepThink(IMO Gold)的89%。更引人注目的是,它在IMO 2025、CMO 2024等真实竞赛中达到金牌水平,并在Putnam 2024获得118分(满分120),这些成绩的取得并未依赖大规模“题库答案”训练。

DeepSeek-Math-V2的核心突破在于其独创的“自验证机制”。文章指出,过去大语言模型在数学推理上虽有进步,但普遍存在“答案正确不代表推理正确”的根本缺陷。对于需要严谨逻辑推导而无标准答案的数学任务,仅依靠“最终答案正确率”作为奖励信号是不足的。所以,自验证机制的引入,使得模型能够自我检查推理链的完整性与逻辑自洽性,避免了“答案对但过程错”的问题,并使其在没有人工标注的情况下,也能持续提升应对开放性难题的能力。

该团队首先训练了一个高精度验证器来检查定理证明的逻辑正确性,然后利用此验证器作为奖励模型训练证明生成器,形成了一个生成与验证持续进化的闭环。通过“扩展验证算力”,模型能像人类数学家一样反复核查并修正思路。DeepSeek强调,这一“过程导向”的自验证推理方法,不只适用于标准化竞赛,更重要的是为处理无标准答案的开放问题提供了全新路径,让数学AI从“算对题”迈向“像数学家一样思考”。

DeepSeek-Math-V2的发布在全球开发者社区引起强烈反响,普遍赞扬其超越市场预期的表现,并期待其在编程等领域带来类似突破。社区认为,数学推理是AI中最严苛、最基础的能力之一,其开源重新定义了大模型数学推理的研究竞争格局,使“可自验证推理”成为推动下一代数学型AI的关键技术路径。

怜星夜思:

1、DeepSeek-Math-V2的“自验证机制”听起来超厉害,但实际应用中,比如在工业界或者科研领域,落地它会不会有些挑战?比如对计算资源的要求、验证速度,甚至怎么确保它能验证一些人类没见过的新颖证明?
2、除了文章里提到的编程,大家觉得这种具备“像数学家一样思考”能力的AI,未来还能在哪些领域发挥意想不到的巨大作用?除了科学研究、工程设计,会不会还有些更“软”的领域也能因此受益?
3、DeepSeek把这么强的数学模型开源了,而像谷歌的Gemini DeepThink还是闭源。大家觉得这种顶级专业模型开源和闭源的路线,长期来看对整个AI行业,特别是在特定垂直领域里,会有怎样的影响?是会加速整体进步,还是让竞争格局更复杂?

原文内容

整理|冬梅

11 月 27 日晚,DeepSeek 在毫无预告的情况下,于 Hugging Face 和 GitHub 上开源了全新数学推理模型 DeepSeek-Math-V2,685B 参数,从模型名称就可以直接分辨出这是一款专注于数学方面的模型。这是业内首个达到国际奥林匹克数学竞赛(IMO)金牌水平且全面开源的数学模型,一经发布便引发全球学界与开发者的高度关注。

它的上一个版本 ——DeepSeek-Math-7B 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。

模型地址:

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

https://github.com/deepseek-ai/DeepSeek-Math-V2

数学能力击败 Gemini DeepThink

那么,这款模型性能到底如何?

据 DeepSeek 官方介绍,在性能方面,DeepSeek-Math-V2 在权威基准 IMO-ProofBench 中表现突出。

在 Basic 子集上,该模型拿下近 99% 的高分,领先第二名 Gemini DeepThink(IMO Gold)的 89%;在更具挑战的 Advanced 子集上,Math-V2 取得 61.9%,略低于 Gemini DeepThink 的 65.7%。

更具标志性的是,在真实竞赛题上的表现:Math-V2 在 IMO 2025、CMO 2024 上达到金牌水平,并在 Putnam 2024 以扩展测试算力获得 118 分(满分 120),显示出强劲的定理证明能力,而这一成绩是在未依赖大规模“题库答案”训练的前提下取得的。

伴随模型同步亮相的技术论文 《DeepSeek Math-V2:迈向可自验证的数学推理》 显示,该模型在数学推理严谨度、定理证明能力以及多项权威基准上均取得显著突破,部分能力超越了谷歌旗下的 Gemini DeepThink(IMO Gold)。

论文地址:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

论文指出,过去一年,随着强化学习技术将“最终答案正确率”作为奖励信号,大语言模型在数学推理任务上的表现快速提升,从较低水平跃升至接近占满 AIME、HMMT 等高中难度竞赛榜单。

然而,这类方法的根本缺陷也逐渐暴露:正确答案并不等同于正确推理,而定理证明等数学核心任务依赖严谨的逐步逻辑推导,无法用“答案对错”简单衡量。对于没有标准答案的开放问题而言,更无法根据“最终答案”奖励模型。因此,要想推动数学推理能力真正突破,需要验证推理链条的完整性与严谨性,而“自验证机制”成为关键

这种自验证机制也正是这款 DeepSeekMath-V2 模型的核心突破。

这种自验证机制为什么很重要? 因为它正面解决了数学 AI 长期存在的核心问题:算对答案,并不意味着真正懂得推理。

数学尤其强调推导过程的严谨性,任何一步出现跳跃或漏洞,最终结论都不成立。因此,如果只依据“答案是否正确”来训练模型,AI 顶多学会更准确地“猜结果”,却无法保证推理过程本身是可信的。

自验证机制的重要性在于,它让模型具备“检查自己”的能力。

一方面,它能判断自己的推理链是否完整、逻辑是否自洽,从而避免“答案对了但过程错了”的常见问题;另一方面,对于那些没有标准答案的开放难题,自验证使得模型能够在没有人工标注的情况下继续提升能力,这对于真正推动数学研究至关重要。

此外,自验证还让模型在推理过程中能够多次检查和修正自己的思路,让它在使用更多算力时获得更高的正确率——这与人类数学家反复核查草稿的习惯非常相似。

基于这一判断,DeepSeek 在 Math-V2 的研发中将重点从“结果导向”转向“过程导向”。团队首先训练出一个基于大模型的高精度验证器,用于检查定理证明的逻辑正确性;随后再利用该验证器作为奖励模型训练证明生成器,促使模型在提交最终证明前主动发现并修正推理中的漏洞,以提升推理的真实性与可靠性。

为保持验证器的领先性,团队进一步引入“扩展验证算力”,自动标注复杂、难验证的推理样本并用于迭代训练,使验证器与生成器形成持续进化的闭环。

DeepSeek 在论文中强调,自我验证的数学推理不仅适用于标准化竞赛任务,更重要的是,它为处理“无标准答案的开放问题”提供了路线图,使数学 AI 不再局限于“算对题”,而向“像数学家一样思考”迈进。尽管距离真正强大的数学推理系统仍有距离,但 Math-V2 的成果表明,自我验证机制是可行且具有重大潜力的研究方向。

网友怎么看?

值得注意的是,Reddit、Hacker News 等海外开发者社区对这次开源给出了强烈反响,不少人称“DeepSeek 这头鲸鱼终于回来了”。

有网友惊叹,Math-V2 在 Basic 基准上以 10 个百分点的优势击败谷歌 Gemini DeepThink(IMO Gold),远超市场预期;还有人表示,“如果他们稍后发布编程模型,我敢打赌那会更加震撼。

有 Reddit 用户表示,一直在闷声干大事,因为数学就是大事。

“没有数学,我们不可能达到奇点。随便翻开一篇人工智能论文,你会发现里面全是数学。”

还有用户希望 DeepSeek 能将强大的数学能力用户代码编写上。该用户表示:

“它能够编写代码吗?我希望能有一个数学能力强大的大语言模型来生成我那些复杂且数学性强的代码。虽然不同的模型或许都能写出不错的代码,但在数学软件领域,数学上的正确性至关重要。我已经注意到,针对我感兴趣的一些问题,不同模型在数学正确性上存在分歧。”

还有国外用户表示,其实中国的模型在数学方面的能力都很强,DeepSeek 如此,Qwen 也是这样。

在 X 上,有用户表示,V1 已经发布近两年了,在大家以为数学产品线已经被放弃时,DeepSeek 一直没有放弃,并且一出手性能就很强大。

在国内社区知乎平台上,也有用户表示,DeepSeek 里面搞数学推理的团队可能是最有潜力的一张王牌。

因为数学推理是所有 AI 推理任务里最苛刻的那一个。没有情绪、没有模糊答案、没有‘差不多就行’,每一步都是严格逻辑链,一处错误会全盘报废。

随着 DeepSeek-Math-V2 的开源,大模型数学推理研究的竞争格局正在被重新定义,而“可自验证推理”也正成为推动下一代数学型 AI 的关键技术路径。

参考链接:

https://github.com/deepseek-ai/DeepSeek-Math-V2

https://www.reddit.com/r/singularity/comments/1p7ztyj/deepseek_released_deepseekmathv2/

https://x.com/search?q=DeepSeek-Math-V2%20&src=typed_query

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

欢迎扫码关注我的微信视频号~

会议预告

12 月 19~20 日,AICon 2025 年度收官站在北京举办。现已开启 9 折优惠。

两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

图片

你也「在看」吗?👇

关于这种“像数学家一样思考”的AI在非传统领域的应用,我个人觉得它在法学推理、经济建模,甚至哲学逻辑分析上都能大放异彩。你想想,法律案例分析,很多时候就是一套严密的逻辑推导,AI如果能确保每一步逻辑严谨,是不是能帮助人类构建更无懈可击的理论体系,甚至发现隐藏的逻辑漏洞?经济模型的构建和优化也充满了数学挑战。也许未来哲学争论都能拿AI来‘证明’了,哈哈,期待一个能够帮我找出逻辑谬误,还能提出更严谨论证的AI。

哇,这可就厉害了!别的领域?比如用来炒股?开个玩笑啦。但说真的,任何需要‘说服力’和‘逻辑严密性’的领域都能受益。比如,你写篇评论文章,让AI帮你检查逻辑漏洞和论证强度,看有没有地方能被反驳,这样文章就能更无懈可击。或者,在投资分析里,让它验证各种复杂的金融衍生品模型是不是真的‘自洽’,别到时候算出来全是坑。感觉只要是人脑能犯逻辑错误的地方,它都能来帮帮忙清理一下思路,毕竟数学思维是所有严谨思考的基础嘛!

我个人是举双手赞成开源的!每次看到那些超强的模型闭源,心里都痒痒,想摸摸看看怎么做的。DeepSeek这次开源,简直是天降福利,能让更多中小团队和个人开发者有机会接触到最先进的数学AI技术,这样我们就能基于它开发出更多有意思的应用,而不是只能等大公司喂食。感觉就像武侠小说里,本来只有几个大门派有绝世武功,现在DeepSeek把秘籍公开了,虽然咱们练不成绝世,但也能练个小有所成,甚至集大家之力,创造出新的武功嘛!虽然可能会有强者更强的趋势,但至少给每个人都提供了参与和学习的机会,不会像闭源那样造成技术壁垒,让小白完全没得玩。

问得好!自验证听着玄乎,落地那可就得看钱包了。我猜啊,那些奥数金牌级别的题,光是让模型‘检查一遍自己的草稿’,估计显卡都得烧好几块。要是想让它验证个费马大定理那种级别的,我们是不是得先给它建个超算?而且万一它验证出个什么新定理,是算它的还是算开发者的?这都是哲学问题!另外,验证速度也很关键,不能说为了严谨,等半天结果,那生产效率就全没了。

除了编程和传统科研,我觉得它可能在金融风险管理、复杂系统优化、药物研发甚至社会科学模拟方面有巨大的潜力。比如在金融领域,很多复杂的衍生品定价模型和风险对冲策略都基于高深数学,一个能自验证的AI能帮助我们发现模型盲点或潜在漏洞,避免“黑天鹅”事件。药物研发领域,像蛋白质折叠、分子动力学模拟这些都需要强大的数学和逻辑推理能力,AI能加速新药发现的周期。甚至在城市规划、交通管理这些复杂的系统问题上,也能通过数学建模和AI验证,找到更优解。

关于DeepSeek-Math-V2的自验证机制在实际应用中的挑战,我认为最核心的可能在于两个方面:一是计算资源的消耗,生成和验证一个复杂证明的推理链条远比简单计算答案更密集。尤其在处理大型、复杂的工业问题时,这可能成为瓶颈。二是“泛化性”问题,模型虽然能验证已有模式,但面对全新的数学框架或抽象概念时,如何确保其验证器的准确性和适应性,这可能需要持续的创新和动态的知识更新机制,否则可能陷入“无法验证新知”的困境。

DeepSeek开源Math-V2对AI行业的长期影响,我认为是双刃剑,但总体偏向积极。一方面,它无疑会加速整个数学AI领域的发展,因为它提供了顶级的技术基线和研究方向,让更多研究者能在此基础上进行创新,降低了进入门槛,促进了百花齐放。但另一方面,像DeepSeek这样拥有强大资源和能力的玩家开源,也可能让那些资源较少的团队面临更大压力,因为他们需要与一个免费且强大的模型竞争,这可能会导致强者恒强,甚至进一步拉开与小型团队的差距。闭源模型则能更好保护商业利益和核心技术,但可能会限制生态发展。长远来看,在AI这个快速发展的领域,开源往往能带来更强大的社区支持和更快的技术迭代速度,形成良性循环,推动行业标准的建立和整体影响力的提升。

从企业战略角度看,DeepSeek的开源可能是对其技术实力和市场领导地位的自信展现。他们可能认为,通过开源可以吸引大量开发者和研究者参与生态建设,从而在数据、应用场景和未来人才上形成更强的护城河,并借此推动其商业化产品(比如API服务或企业级解决方案)的发展。谷歌的闭源策略可能是出于核心IP保护和商业变现的考虑,尤其是在AI模型训练成本极高的情况下。长远来看,在AI这个快速发展的领域,开源往往能带来更强大的社区支持和更快的技术迭代速度,虽然短期内可能放弃部分直接收益,但长期来看更有利于建立行业标准和影响力,甚至可以倒逼闭源模型拿出更好的表现来证明自己的价值,最终受益的会是整个用户群体。