AI智能体Gauss三周搞定陶哲轩团队18月数学难题,前xAI科学家创业掀波澜

Szegedy新公司Math Inc.推出AI智能体Gauss,仅3周就形式化了陶哲轩团队1.5年数学难题,加速可验证超级智能到来。

原文标题:陶哲轩团队1年半项目,被他3周搞定!曾与LeCun吵翻天,如今AI大佬创业用智能体震惊整个学界?

原文作者:AI前线

冷月清谈:

前xAI联合创始人、Morph Labs首席科学家Christian Szegedy创立新公司Math Inc.,致力于通过自动形式化技术构建可验证超级智能。该公司推出的AI智能体Gauss取得了突破性进展,仅用三周时间就在Lean定理证明器中完成了菲尔兹奖得主陶哲轩团队耗时18个月仍未完全攻克的强素数定理(Strong Prime Number Theorem, PNT)的形式化工作。这项任务的难点在于将人类成果转化为机器可验证代码,传统上成本高昂且耗时。Gauss智能体能自主工作数小时,极大减少了顶尖专家所需的时间和精力,并成功形式化了复分析领域的关键缺失成果,生成了约2.5万行Lean代码。这一成就不仅展示了AI在数学形式化方面的强大能力,也预示着人机协作在未来数学研究中的新范式。Math Inc.计划进一步优化算法,大幅缩短大型形式化项目时间,为“可验证超级智能”和“机器博学者”奠定基础。Szegedy本人在深度学习领域拥有深厚背景,曾发明批归一化(Batch Normalization),并因AI推理能力与LeCun有过公开辩论。

怜星夜思:

1、Gauss智能体在数学形式化方面取得的突破让人印象深刻,但文章提到它仍需人类专家提供框架和指导,也无法一次性独立完成整个项目。你觉得未来这种人机协作的模式会如何演变?人类数学家还能在哪些领域发挥独有的价值?
2、文章中提到了Math Inc.致力于打造“可验证超级智能(verifiable superintelligence)”。这个概念听起来很高级,它和我们常说的“通用人工智能(AGI或ASI)”有什么区别?为什么强调“可验证”对于超级智能如此重要?
3、Szegedy曾与LeCun就LLM的推理能力进行过激烈的辩论,他认为LLM可以通过反馈循环和适当的架构进行深入推理。这次Gauss智能体在数学形式化上的成功,是否可以看作是对他观点的有力佐证?这对于未来LLM在科学研究,尤其是这类需要严谨逻辑的数学领域,又意味着什么?

原文内容

整理 | 华卫

刚刚,xAI 前联合创始人、Morph Labs 首席科学家 Christian Szegedy 宣布了自己创业的消息。其创立的新公司 Math Inc. 已然上线,是一家致力于通过自动形式化技术打造可验证超级智能的新公司。Szegedy 表示,基于其在 Morph Labs 开发的强大 RL 基础设施,Math Inc. 已经通过其新的自动形式化智能体 Gauss 完成了强素数定理的形式化,并取得突破性成果。

Gauss:自主工作超 
10 小时的数学智能体

据 Math Inc. 团队介绍,Gauss 是首款专为协助数学专家开展形式化验证工作打造的自动形式化智能体。借助 Gauss,他们已成功完成 2024 年 1 月由菲尔兹奖得主陶哲轩(Terence Tao)与 Alex Kontorovich 提出的挑战,即在 Lean 定理证明器中完成强素数定理(Prime Number Theorem, PNT)的形式化工作。目前,相关代码已上传至 GitHub。

存储库链接:https://github.com/math-inc/strongpnt

将人类数学成果转化为可验证的机器代码,长期以来一直是一项重大挑战。然而,该过程成本极高——不仅需要稀缺的专业人才,推进难度也远超预期。例如,陶哲轩与 Alex Kontorovich 团队在投入 18 个月努力后,才于 2025 年 7 月宣布取得阶段性进展,而复分析领域的核心难题始终是阻碍他们实现目标的关键瓶颈。

正是在这一背景下,Math Inc. 团队宣布,借助 Gauss 智能体,他们仅用三周时间便完成了这一项目。Gauss 可实现数小时的自主运行,大幅减少了以往仅由顶尖形式化专家才能承担的工作量。在此过程中,Gauss 还完成了复分析领域关键缺失成果的形式化,为以往被认为“难以触及”的未来研究方向扫清了障碍。

并且,通过 Gauss,该团队生成了约 2.5 万行 Lean 代码,其中包含 1000 余个定理与定义。从历史角度看,如此规模的形式化证明历来是重要里程碑,往往需要多年努力才能完成。即便在历史上规模最大的单个形式化项目中(这类项目通常需耗时十余年,堪称“定义职业生涯”的成果),代码量也仅比此次成果高一个数量级,最多约 50 万行。而 Lean 的标准数学库 Mathlib 规模则更进一步,代码量约 200 万行(含 35 万个 Lean 定理与定义),由 600 余名研究者耗时 8 年共同开发完成。

之后,Szegedy 进一步在 X 平台澄清道,“ 我认为没有任何地方声称,我们重新完成了原项目耗时 18 个月才完成的工作。 在我看来,由于新补充部分的数学内容极为复杂,我们在已完成的部分上应该能达到相近的处理速度。尽管这种判断带有一定推测性,但可信度非常高。因此,我认为,借助 Gauss 原项目(中等规模素数定理形式化)本也能在 1-2 周内完成。该系统可自主处理各个模块(即每次能自主运行 10 小时以上,且持续推进工作)。虽然它尚未实现完全自主(无法一次性独立完成整个项目),但在每次迭代中,它通常能自主完成 95% 的命题形式化与证明工作,剩余部分则需人工参与。对于这些暂时存在的局限,我们始终保持公开透明。”

此外,Math Inc. 表示,本项目的顺利推进,离不开与 Morph Labs 合作开发的 Trinity 环境基础设施。要将 Lean 验证环境扩展到 Gauss 所需的规模——支持数千个并发智能体(每个智能体均拥有独立的 Lean 运行时),且需占用数太字节(TB)的集群内存——是一项极具复杂性的系统工程挑战,而 Morph Cloud 上的 Infinibranch 技术在其中发挥了关键作用。

好评如潮,
尤获学术界认可

“Gauss 的问世,让我们得以窥见形式化技术未来的规模化发展方向。目前,Gauss 仍需依赖数学专家提供的自然语言框架,且在该框架的搭建与优化上需高水平专家指导。但我们预计,未来版本的 Gauss 将具备更强的能力与更高的自主性。”

据 Math Inc. 称,他们已启动技术部署工作,旨在为一线数学家与证明工程师提供实用工具。现在,他们正与部分数学家群体接洽,推进 beta 测试。

数论家、斯坦福大学数学系斯泽格教授助理 Jared Duker Lichtman 表示,“与 Gauss 合作,我感受到了人机协作的新范式,特别是对于那些关心数学验证但又不会自己编程的人来说。随着时间的推移,这可能会开启人类与计算机之间数学的黄金时代。”物理学家 Jose Ali Vivas 称赞道,“令人惊叹的 Gauss 智能体。”威斯康星大学计算机科学教授 Pedro Domingos 评价道,“不要将‘深度学习不能做数学’与‘人工智能不能做数学’混淆。人工智能天生就会做数学。”

有网友表示,“形式验证 + 人工智能是绝配组合。生成 2.2 万行 Lean 代码来证明定理表明人工智能既能创新又严谨正确。”“有了 Gauss,我们迈入了一个新纪元:人工智能与专家携手合作,加速数学发展,并开启了前所未有的创新与协作可能。”

Math Inc. 透露,Gauss 很快将大幅缩短大型形式化项目的完成时间。通过进一步的算法优化,其目标在未来 12 个月内,将形式化代码的总量提升 2-3 个数量级。这一过程将成为全新范式的“试验场”——为“可验证超级智能”及驱动其发展的“机器博学者”奠定基础。

创始人曾改变深度学习历史

解锁 AI 初创公司新身份的 Szegedy,此前是马斯克旗下人工智能企业 xAI 的 12 位创始团队成员之一,于 2023 年 5 月正式加入该团队。

在 xAI 期间,Szegedy 还曾因 LLM 的推理能力与 LeCun 公开爆发一次观点争论。在 LeCun 看来,推理能力的缺陷几乎是 LLM 的死穴,无论未来采用多强大的算力,多广阔和优质的数据集训练 LLM,都无法解决这个问题。Szegedy 则表示,卷积网络的推理能力更加有限,但这并没有影响 AlphaZero 的能力。关键在于推理过程和建立的 (RL) 反馈循环。他认为模型能力可以进行极其深入的推理,例如进行数学研究。

2025 年 6 月,Szegedy 成为 xAI 团队首位离职的核心成员,加入 AI 编程初创公司 Morph Labs 担任首席科学家 。这家公司的目标是:实现“可验证的超级智能”。

更早之前,拥有波恩大学应用数学博士学位的 Szegedy 在谷歌工作了十余年,并领导 Google N2Formal 团队,专注于深度学习、计算机视觉等领域研究,其学术成果在对抗性样本领域具有里程碑意义,还曾改变深度学习历史。

2015 年,深度学习界面临一个棘手的问题:训练深层神经网络既困难又极具挑战。当时,还是谷歌研究员的 Szegedy 与另一位谷歌研究员 Sergey Ioffe 找到了问题的关键。他们共同发表了一篇论文,标题是《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。这篇论文提出了一种名叫“批归一化”(Batch Normalization,简称 BN)的技术,彻底改变了深度学习的训练方式。

在 BatchNorm 出现之前,训练深度超过几十层的网络非常困难。后续几乎所有的主流卷积神经网络(如 ResNet, DenseNet, Inception)和许多其他类型的模型都广泛采用了 BatchNorm。十年后,这篇论文还在今年的国际机器学习大会(ICML)2025 上,被授予了“时间检验奖”(Test of Time Award)。

参考链接:

https://www.math.inc/gauss

https://www.linkedin.com/in/christian-szegedy-bb284816

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

10 月 23 - 25 日,QCon 上海站即将召开,限时 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


今日荐文

图片
你也「在看」吗?👇

为什么强调“可验证”对于超级智能如此重要?
我觉得可以这样理解:AGI就像是一个考试能考满分的天才学生,但他可能就是凭直觉或者“唰唰唰”就写完了答案,你让他解释为什么这么做,他可能都说不清楚。而“可验证超级智能”则不仅要考满分,还要把你每一道题的解题步骤、逻辑推导、引用的公式都写得清清楚楚、明明白白,让你即便不是天才也能看懂并且验证他的答案是对的。你想想,如果一个AI掌控了全球电力系统或者金融市场,它每一步操作都不能解释,那得多吓人?未来AI犯错的代价可能是毁灭性的,所以“可验证”就像给AI戴上一个“诚信保证”,出了问题能追根溯源,才能让人类放心大胆地使用它。

关于“它和我们常说的‘通用人工智能’(AGI或ASI)有什么区别?”
“可验证超级智能”与“通用人工智能”的核心区别在于其对“可靠性”和“可信赖性”的强调。通用人工智能(AGI)主要关注AI在广泛任务上达到或超越人类智能水平的能力,而“超级智能”(ASI)则特指在几乎所有方面都远超人类的智能。然而,“可验证超级智能”则是在此基础上,额外要求其决策过程、推理步骤和结论必须是可追溯、可审查、可证明其正确性的。这意味着AI的每一步操作,尤其是关键性、高风险的应用场景,都需要有一个透明且可验证的逻辑链条,以确保其正确性和安全性,避免“黑箱”问题。这对于确保AI在关键基础设施、药物研发甚至军事等领域的应用至关重要。

人类数学家还能做什么?
我觉得就像围棋一样,AI和人类从最初的对抗,慢慢会变成共生、互补。数学家可以把AI当成一个超级强大的“笔”和“纸”,用来验证那些人类直觉猜想但又无比复杂,手算证明会累死的定理。甚至AI可能会从浩瀚的数学库中,给人类提示一些新的思路,就像一个“数学灵感探测器”。所以,人类可能不会再陷入繁琐的证明细节,而是花更多时间去“玩”数学,去发现更美妙的结构和规律,让AI去替我们擦屁股(形式化证明)。

关于未来人机协作的模式会如何演变?
哈哈,我觉得最终会演变成“Math Inc. 发布 Gauss 5.0,宣布所有数学家可以提前退休!”开个玩笑啦。不过说真的,从文章描述来看,Gauss已经能自主运行数小时,完成95%的命题形式化和证明。未来AI肯定会越来越智能,人类扮演的角色可能会更像“数学项目经理”或者“高级策略师”,只负责确定大方向和评估结果,具体的执行和细节,都交给AI去跑。这解放出来的脑力,说不定能让人类数学家在其他领域,比如哲学、艺术上,取得新的突破呢!毕竟,数学也是一种艺术嘛!