OpenAI神秘模型突破数学前沿难题,AI助力科研新范式

OpenAI神秘模型挑战数学前沿,成功解答多道难题,AI展现出创造新知识的潜力,或将重塑科研范式。

原文标题:震撼!OpenAI神秘模型连破6道前沿难题,奥特曼:AI在造「新知识」

原文作者:数据派THU

冷月清谈:

OpenAI的内部模型在“First Proof”挑战中,成功解答了由顶尖数学家提供的10道前沿数学难题中的至少6道。这项挑战标志着AI从解答奥数题进化到能够创造新知识,重塑STEM研究范式。尽管事后社区评估对OpenAI的解答正确率存在争议,但AI在未经过训练的情况下,在一周内独立或半独立地给出严格的数学证明,仍然具有历史意义。这表明AI在数学研究领域取得了巨大进展,虽然目前还不能取代数学家,但已开始在某些关键环节上提供帮助,预示着数学研究的新时代即将到来。

怜星夜思:

1、OpenAI这次的“First Proof”挑战,大家觉得对数学界来说意味着什么?AI未来会成为数学家的好帮手,还是直接抢饭碗?
2、文章里提到,AI的解答风格有一种“19世纪数学的味道”,大家怎么理解这种说法?AI的思维方式会受到训练数据的影响吗?
3、OpenAI这次挑战的结果,虽然有些争议,但无疑展示了AI在数学领域的潜力。大家觉得除了数学,AI还能在哪些科研领域发挥重要作用?

原文内容

图片
来源:新智元
本文约3700字,建议阅读9分钟
OpenAI首席科学家震撼爆料,其神秘内部模型仅凭一周成功攻克了10道未发表顶尖数学难题中的6道。这一名为First Proof的挑战标志着AI已从奥赛选手进化为前沿知识的创造者,奥特曼更直言STEM研究范式将被彻底重塑。



还记得两年前,AI只能磕磕绊绊地解出一道小学奥数题。

今天,读完这篇文章时,你可能会感到一种深入骨髓的战栗。

因为那个曾经蹒跚学步的「孩子」,在刚刚过去的一周里,不仅学会了奔跑,还一脚踢开了人类智力皇冠上最坚固的那扇门——前沿数学研究

OpenAI首席科学家Jakub Pachocki在X上扔出了一颗重磅炸弹——

「我们用内部模型对10道前沿数学研究题发起挑战,在仅有少量人工监督的情况下,至少6道的解答有很高概率是正确的。」

随后,奥特曼亲自转发并感慨:「我们从AI连小学数学都做不好,到AI能解决研究级别的数学问题,只用了短短几年。」

奥特曼以一贯的轻描淡写风格加了一句:「我也相当确定,大家的主要反应会是『也没那么难嘛』。」

嗯,典型的奥式凡尔赛。

奥特曼甚至表示,AI已经有了产生新知识的能力!

OpenAI总裁Brockman也转发表示振奋!

确实,这不是奥数竞赛题,不是考研真题,不是任何已经有标准答案的东西。

这是11位世界顶级数学家刚刚从自己的研究中挖出来、答案从未公开过的前沿问题。

人类专家自己解这些题,每道也需要好几天,甚至更久。

而OpenAI一个还没公开的神秘模型,一周搞定了其中大部分。

这到底是怎么回事?

一场硬核的数学考试

故事要从2月6日说起。

那天,来自斯坦福大学、哥伦比亚大学、哈佛大学、耶鲁大学、洛桑联邦理工学院等顶尖机构的11位数学家,联合发布了一篇名为「First Proof」(首次发酵)的论文。

这个名字本身就很有意思——在烘焙中,「first proof」指的是面团的第一次整体发酵,在分割成型之前让它慢慢膨胀。

数学家们把这次实验比作面团发酵:先把问题撒出去,让AI和社区一起「醒发」。

这11位出题人来头可不小。

其中Martin Hairer是2014年菲尔兹奖得主,Daniel Spielman是耶鲁大学的谱图论大牛,Lauren Williams是哈佛大学的代数组合学权威。

Martin Hairer

他们每人贡献了一道(或参与出了一道)从自己正在进行的研究中抽出来的真问题。

这10道题覆盖了数学中极为广泛的领域:代数组合、谱图论、代数拓扑、随机分析、辛几何、表示论、李群中的格、张量分析、数值线性代数。

网站地址:https://1stproof.org/

每一道题的证明长度大约在五页左右——这不是那种需要几百页论文才能搞定的世纪难题,而是数学家在研究过程中遇到的「引理」(lemma),也就是通往更大定理路上的一块关键垫脚石。

换句话说,这是一个优秀研究生可能需要苦苦琢磨一段时间的那种日常级研究任务。

关键是,这些问题的答案从未在互联网上出现过。

没有发表过,没有在任何会议上讲过,没有出现在任何公开场合。

答案被加密后上传到了1stproof.org。

这意味着,AI模型不可能通过检索训练数据来作弊。

数学家们的目标很明确:我们不想再看AI做奥数题了,我们想知道,AI到底能不能做真正的数学研究。

OpenAI的疯狂一周


消息一出,整个AI圈和数学圈都炸了。

斯坦福大学数学教授、First Proof团队成员Mohammed Abouzaid后来坦言:「我们完全没想到会引发这么大的动静,更没想到AI公司会这么认真地投入资源来做这件事。」

其中最引人注目的参赛者,当然是OpenAI。

根据Jakub Pachocki的描述,这并不是OpenAI倾巢出动的大会战,而是一次「Side-sprint」(副业冲刺)。

就像是工程师们在午休时间顺手搞的一个测试。

他们使用的是一个内测模型

不是GPT-5.2,不知道它是不是GPT-6,还是某种更激进的架构。

这个模型在「有限的人工监督」下工作:OpenAI没有向模型提供数学思路或解题建议,但在某些解答上,根据专家反馈要求模型进行了扩展和补充。

他们还手动安排了这个内部模型与ChatGPT之间的对话,用于验证、排版和风格润色。

对于部分问题,他们从几次尝试中按照人类判断选出了最优解。

最终,OpenAI在2月13日提交了一份67页的PDF,包含了对全部10道题的解答尝试。

Pachocki自信地宣布:至少6道解答(第2、4、5、6、9、10题)有很高概率是正确的。

文档地址:https://cdn.openai.com/pdf/a430f16e-08c6-49c7-9ed0-ce5368b71d3c/1stproof_oai.pdf

OpenAI的另一位核心研究者Noam Brown也在社交媒体上高调喊话:「去年夏天IMO的结果公布时,有些人不以为然,说那只是高中数学。我们认为我们最新的模型将消除一切怀疑——STEM研究即将发生根本性变革。」

Noam Brown还在文中承诺,他们很快会发布这个新模型。

真相比宣传复杂得多

2月14日,First Proof团队公布了全部10道题的正式答案,并发布了他们自己用公开AI模型(GPT-5.2 Pro和Gemini 3.0 Deepthink)测试这些题目的经验报告。

有趣的是,官方论文中可能出现了一个小错误。

这里应该是2026,不是2025。

不过,这都不重要。

我们来看结论。

结论相当冷峻:在单次尝试的情况下,公开可用的最强AI模型只答对了2道题——第9题(张量代数关系)和第10题(核化CP-ALS子问题)。

而且第9题还存在疑似「数据污染」问题——一个几乎等价的证明已经存在于已有文献中。

第1题也被发现受到了污染,出题人Hairer网站上曾经有一个证明草稿的存档,但即便如此,AI也没能填上其中的关键缺口。

更耐人寻味的是Abouzaid对AI产出风格的评价:「我看到的AI给出的正确解答,有一种19世纪数学的味道。但我们要构建的是21世纪的数学。」

那么OpenAI自称的「6道很可能正确」到底怎么样了?

事态很快出现了戏剧性转折。

论文发布不到一天,数学社区就开始对OpenAI的解答进行逐题审查。

Pachocki自己很快更新了声明,承认第2题(关于扭曲局部Rankin-Selberg积分的非消没检验向量)的解答「很可能不正确」。

社区的独立评审则进一步发现,第5题(关于等变稳定范畴的O-适应切片滤过)和第7题(关于Q-无环万有覆叠的均匀格)的解答也存在严重漏洞。

到目前为止,根据《科学美国人》的报道以及社区数学家的独立评判,比较确定正确的是第4题(有限加法卷积的调和平均不等式)、第8题(四价多面体拉格朗日曲面的光滑化)、第9题和第10题。

其余几道仍在审查中,但整体来看,OpenAI的实际命中率很可能低于其最初宣称的六成。

依然是一个历史时刻

尽管真实成绩可能没有OpenAI宣传的那么辉煌,但我们不应因此低估这件事的历史意义。

哪怕最终确认只有3到4道题被正确解答,这也意味着一个AI,在面对从未见过的、真正前沿的数学研究问题时,能在一周之内独立(或半独立地)给出严格的数学证明。

这在几年前是完全不可想象的事情。

2022年,当时ChatGPT还经常在分数加减法上犯错。

2024年,AI开始能解一些竞赛数学题。

2025年夏天,OpenAI的模型在国际数学奥林匹克上拿到金牌成绩。

而现在——2026年2月——AI正在尝试解答人类数学家正在研究的、从未发表过的原创问题。

从小学算术到前沿研究,这条路走了不到四年。

这个速度,才是真正让人心跳加速的地方。

更值得关注的是那些被AI做对了的题目。

比如第4题,关于有限加法卷积中Φ_n函数的调和平均不等式——这需要一系列精巧的线性代数操作、对双随机矩阵的深刻理解、以及Jensen不等式的巧妙应用。

OpenAI的模型写出了一个自包含的23页证明,逻辑链条完整,最终被专家确认为正确。

一个AI,独立完成了一篇可以发表在数学期刊上的研究级证明。

这不是做题,这就是做研究。

数学家要失业了吗?

至少现在,还不会。

《科学美国人》在报道这次事件时给出的判断很直接:「AI目前还不能取代数学家。」

为什么?

因为数学研究远不止「证明一个已知问题」这一个环节。

真正的数学研究包括:发现值得研究的问题、创造新的概念和定义、构建新的理论框架——然后才是证明。

First Proof测试的只是最后一步,也是最机械化的一步。

而在前面那些需要真正的洞察力、审美判断和开创性想象的环节,AI目前连门都还没摸到。

但奥特曼说的也没错:速度是关键变量。

如果AI从做不了小学数学到能碰前沿研究只用了四年。

那再过四年呢?

有趣的是,一些顶尖数学家已经开始用脚投票。

哥伦比亚大学的数学天才Ashwin Sawhney从学术界休假加入了OpenAI。意大利数学家Pagano则去了Google DeepMind

他们的理由出奇一致:「很明显这将改变我们做数学的方式,与其以后被动适应,不如趁早参与。」

面团还在发酵

First Proof团队已经宣布,他们将在3月14日(恰好是π日)发布更多细节和分析,并计划在未来几个月内发布第二批问题——附带更严格的评判标准和更完善的规则。

他们甚至愿意与AI公司签订协议,在问题公开前进行受控测试。

这不是一场考试的结束,而是一个新时代的开始。

数学——这门人类最古老、最纯粹的智力活动——正在第一次面临一个真正的对话伙伴。

这个伙伴有时胡说八道,有时又惊人地深刻。

它会用19世纪的语言说话,但运算速度是21世纪的。

它还不能代替数学家思考,但它已经可以在某些关键节点上为数学家分担工作。

面团还在发酵。

我们已经闻到面包的香味了。

参考资料:


https://x.com/merettm/status/2022517085193277874

https://x.com/polynoamial/status/2022527227049742779

https://x.com/sama/status/2022729068949717182


编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这次OpenAI的突破,个人觉得是AI辅助科研的一个重要里程碑,但要说取代数学家还为时过早。AI在解决特定问题上表现出色,但在提出新问题、构建理论框架等方面还是需要人类的洞察力。未来更可能是人机协作,AI负责繁琐的计算和验证,数学家专注于创新和思考。

我理解是,AI的解题思路可能比较直接、传统,缺乏人类数学家那种灵光一现的创造性。AI更多的是基于已有的知识和模式进行推导,而人类数学家有时会跳出框架,提出全新的视角。

可能以后数学家都要学点AI编程了,不会用AI辅助研究,可能就跟现在不会用电脑一样,要被淘汰了。而且数学教育也要改革,不能只教怎么解题,还要教怎么跟AI合作,怎么判断AI给出的答案是否正确,这可能比解题本身更重要。

会不会以后数学界的人才都流向AI公司了?毕竟AI公司给的待遇更高,发展前景也更好。如果这样的话,对纯粹的数学研究来说,可能不是一件好事。

从更学术的角度看,AI的介入可能会加速数学知识的积累和传播。AI可以快速验证不同的数学猜想,并将这些结果整理成易于理解的形式,方便其他研究人员学习和应用。当然,这也对数学家的知识结构提出了更高的要求,需要他们具备更强的跨学科能力和对AI技术的理解。

首先是教育体系要大变革。如果AI能更快掌握知识,人类的学习重点就应该从知识的记忆转向创新能力的培养。另外,各行各业都需要重新评估人才的需求,避免大量重复性工作被AI取代。

个人觉得在材料科学领域很有潜力。AI可以模拟各种材料的性质,加速新材料的研发。感觉以后新材料都是AI“炼”出来的。

我认为短期内数学家们不用太担心失业,但工作方式肯定会变。以后可能更多的是提出假设、设计实验,然后让AI去验证。数学家变成“AI数学家”?

个人认为,AI在科研中最重要的角色是“加速器”。它可以加速我们的试错过程,更快地找到正确的方向。但同时也要注意,不能让AI变成“黑箱”,我们需要理解AI是如何得出结论的,才能更好地利用它。

我觉得创造力可能不仅仅是技术问题,还涉及到哲学层面的东西。AI要具备创造概念的能力,可能需要先理解什么是“概念”,以及概念是如何产生的。这可能需要AI不仅能够处理数据,还能理解人类的文化、历史和社会背景。

我觉得AI未来并非完全没有可能具备这些能力,但需要非常重大的突破。现在AI主要还是基于已有的数据和算法进行学习和推理,缺乏真正的创造性和直觉。如果AI能够模拟人类的思维方式,例如通过引入情感、意识等概念,或许就能在发现问题和创造概念方面有所突破。

关键突破?我觉得首先得让AI能做梦吧!很多科学发现都是在梦里或者灵光一闪的时候产生的。如果AI也能做梦,说不定就能产生一些意想不到的idea。当然,这只是个玩笑,但也许未来的AI真的需要一些我们现在无法理解的机制才能产生真正的创造力。

我觉得学术界和工业界应该加强人员交流,鼓励学者到企业实习或兼职,也欢迎企业的研究人员到高校讲学或合作研究。同时,政府和科研机构应该加大对基础研究的投入,为学术界提供更好的科研环境和待遇,吸引更多的人才。

从技术角度看,可以通过更精细的数据清洗、更严格的验证机制来减少“数据污染”的可能性。比如,在训练数据中排除与问题相关的文献,或者设计更复杂的模型来识别和去除重复信息。当然,这会增加成本和难度,需要权衡利弊。

从理论上讲,如果能让AI理解数学的本质,而不仅仅是记忆和计算,那就有可能。但问题是,我们人类自己对「理解」的定义都还在探索中。所以,要让AI具备这种能力,恐怕是遥遥无期,搞不好会是下一个AI寒冬的导火索。