陶哲轩估计验证工具再升级:Copilot助力,数天迭代至2.0版本,并展示数学形式化证明视频

陶哲轩估计验证工具快速迭代至2.0版本,Copilot助力,并展示AI辅助数学形式化证明的实验,释放AI在数学研究中的潜力。

原文标题:Copilot上大分,仅数天,陶哲轩的估计验证工具卷到2.0!刚刚又发数学形式化证明视频

原文作者:机器之心

冷月清谈:

陶哲轩近期对其估计验证工具进行了重大升级,在Github Copilot的加持下,几天内迅速迭代至2.0版本。新版本不仅增强了证明助手的功能,使其能够处理命题逻辑,还模仿了Lean证明助手,并由强大的Python符号代数包sympy提供支持。陶哲轩强调,该工具旨在自动化标量函数渐近估计的证明,并可扩展以处理更广泛的数学任务。此外,他还展示了利用Github Copilot和Lean证明助手半自动地形式化一个数学证明的实验,强调AI工具在处理繁琐推理方面的潜力,并初步验证了AI辅助数学研究的可行性。

怜星夜思:

1、陶哲轩的这个验证工具,从1.0到2.0版本迭代如此迅速,并且严重依赖Copilot,你觉得这种开发模式会成为未来科研开发的常态吗?它会带来哪些好处和潜在的风险?
2、陶哲轩提到该工具目前更侧重于半自动交互式证明,由人类提供高级策略,助手执行计算。那么纯自动证明的瓶颈在哪里?你认为未来有可能实现完全由AI驱动的数学证明吗?
3、陶哲轩的实验暴露出Lean项目协作工具存在一些问题,比如blueprint工具只支持每个命题绑定一个证明版本。你认为对于这种数学形式化证明的协作,还需要哪些更完善的工具支持?

原文内容

机器之心报道

编辑:杜伟、大盘鸡


本周二,我们报道了 —— 在大模型的协助下编写了一个概念验证软件工具,来验证涉及任意正参数的给定估计是否成立(在常数因子范围内)。


在项目中,他开发了一个用于自动(或半自动)证明分析中估计值的框架。估计值是 X≲Y(在渐近记法中表示 X=O (Y))或 X≪Y(在渐近符号中表示 X=o (Y))形式的不等式。


这才几天的时间,这个估计验证工具的 2.0 版本就来了!



陶哲轩对该工具进行了两次全面改进。


首先,他将其改造成一个基础的证明助手(proof assistant),同时能够处理一些命题逻辑;接着,他根据评论者的反馈,将其改造成一个更加灵活的证明助手(在几个关键方面特意模仿了 Lean 证明助手),它也由功能强大的 Python 符号代数包 sympy 提供支持。


陶哲轩认为现在得到了一个稳定的框架,并可以进一步扩展该工具。他最初的目标只是自动化(或半自动化)标量函数渐近估计的证明,但原则上可以继续向该工具添加策略、新的 sympy 类型和引理,以处理范围广泛的其他数学任务。 


该证明助手的 2.0 版本已经上传到了 GitHub。同样地,与自己以前的编码一样,陶哲轩最终「严重」依赖大语言模型的帮助来理解 Python 和 sympy 的一些细节,其中 Github Copilot 的自动补全功能尤其有用。


虽然该工具支持全自动证明,但陶哲轩决定现在更多地关注半自动交互式证明,其中人类用户提供高级「策略」,然后证明助手执行必要的计算,直到证明完成。



GitHub 地址:https://github.com/teorth/estimates


根据项目简介,这是一个利用 Python 开发的轻量级证明助手,其功能远逊于 Lean、Isabelle 或 Rocq 等完整证明助手,但希望它能够轻松用于证明一些简短而繁琐的任务,例如验证一个不等式或估计是否由其他不等式或估计推导出来。该助手的一个具体目标是为渐近估计(asymptotic estimates)提供支持。


具体实现过程


下载相关文件后,即可在 Python 中启动证明助手,只需输入「from main import *」并加载一个预先制作的练习即可。以下是其中一个练习:



这是证明助手对以下问题的形式化描述:如果 x, y, z 是正实数,且 x<2y 且 y<3z+1,则证明 x<7z+2。


证明助手的工作方式是:用户指示助手使用各种「策略」来简化问题,直到问题得到解决。在本例中,该问题可以通过线性算法求解,具体形式化为「Linarith ()」策略:



如果有人想更详细地了解线性算法的工作原理,可以使用「verbose」标志(flag)来运行此策略。



有时,证明过程会涉及情况拆分,最终的证明会呈现出树状结构。这里有个例子:其务是证明假设 (x>-1)∧(x<1) 且 (y>-2)∧(y<2) 蕴涵 (x+y>-3)∧(x+y<3):



这里,根据使用的三种策略对证明进行「伪精益」描述:策略「cases h」 1 对假设「 h1」进行情况拆分,然后在两种情况下分别应用「simp_all」策略来简化。


该工具支持渐近估计。陶哲轩找到了一种在 Sympy 中实现量级形式化的方法。事实证明,Sympy 在某种意义上已经可以原生实现非标准分析:它的符号变量有一个「is_number」标志,基本上对应于非标准分析中「标准」数的概念。


举例而言,数字 3 的「sympy」版本「S (3)」有「S (3).is_number == True」,因此是标准的;而整数变量「n = Symbol ("n", integer=true)」有「n.is_number == False 」,因此是非标准的。


在「sympy」中,他能够构建各种(正)表达式「X」的数量级「Theta (X)」,其属性「 Theta (n)=Theta (1)」如下:如果「n」是标准数,然后使用这个概念来定义渐近估计,例如 

(实现为 lesssim (X,Y))。接下来可以应用对数形式的线性算术来自动验证一些渐近估计。这里有个简单的例子:给定一个正整数 N 和正实数 x,y,使得 image.png 且  ,任务目标是得出结论 



对数线性规划求解器还可以通过相当强力的「分支」方法处理低阶项。



陶哲轩计划开始开发用于估计符号函数的函数空间范数工具,例如创建一些策略来部署诸如 Holder 不等式和 Sobolev 嵌入不等式之类的引理。Sympy 框架看起来足够灵活,可以为这些类型的对象创建更多对象类。目前,他只有一个概念验证引理来说明这个框架,即算术平均 - 几何平均(arithmetic mean-geometric mean)引理。 



陶哲轩最后表示,他对这个证明助手的基本框架非常满意,因此愿意接受进一步的建议或新功能的贡献,例如引入新的数据类型、引理和策略,或者一些示例问题。这些问题应该很容易被这个助手解决,但目前由于缺乏合适的策略和引理而超出了它的能力。


数学形式化证明实验纪实


而就在刚刚,陶哲轩又发了一个新项目。


他最近尝试了一个小实验:尝试利用现代自动化工具(如 GitHub Copilot 和 Lean 证明助手)来半自动地形式化一个一页纸的数学证明。这个证明来自他在 Equational Theories Project 中的合作者 Bruno Le Floch。  



  • 视频演示:https://www.youtube.com/watch?v=cyyR7j2ChCI

  • 讨论地址:https://leanprover.zulipchat.com/#narrow/channel/458659-Equational/topic/Alternative.20proofs.20of.20E1689.E2.8A.A2E2

  • GitHub 链接:https://github.com/teorth/estimate_tools/blob/master/EstimateTools/test/equational.lean


陶哲轩尝试「盲做」这个证明,即不真正理解证明结构的前提下,直接用工具去拼出形式化过程。他用约 33 分钟完成了形式化过程。对他来说,这是一种很不一样的工作方式 —— 不靠对整个证明的大局理解,而是完全依赖于工具处理逻辑细节。


在 Zulip 讨论中,Bruno Le Floch 最初指出,在论文中「E1689-E2 的所有已知证明都是计算机辅助」这一说法太绝对了。他自己后来给出了一个更具可读性的「人类版本」,虽有些步骤灵感来自 prover9,但整体不应算作纯计算机证明。


陶哲轩回应:那我们可以更新 blueprint,并在论文中注明我们在项目中得到了一个非计算机生成的版本。


故事就此开始,陶哲轩选择做一个实验。「我尝试完全基于 Bruno 的草稿,一步步进行形式化,过程非常依赖 Copilot 和 Lean 的 canonical 策略。」他将原稿拆解成细小逻辑单元,让工具处理约一半细节,剩下的由自己手动填补,完成了一个可以通过验证的 Lean 形式化证明,还录了视频上传到 YouTube。


实际证明, 虽然这种方法看起来有点机械,但对于结构不强、以技术推导为主的证明,是有效的。AI 工具可以代劳大量繁琐推理,让人专注于「如何表达」而不是「是否合理」。


这场实验还暴露出一些 Lean 项目协作工具的问题。目前项目使用的 blueprint 工具只支持每个命题绑定一个证明版本。如果要同时记录人类证明和 AI 生成的版本,会发生覆盖,管理混乱。


如果你对这个话题感兴趣,建议直接查看 Zulip 讨论区,了解更多一线协作细节。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

除了blueprint提到的问题,我觉得更需要一个社区。形式化证明这个东西,一个人闷头搞效率太低了,需要大家互相学习、互相帮助。一个活跃的社区可以贡献更多的定理、策略和工具,降低入门门槛。想象一下,如果有一个像Stack Overflow一样的形式化证明社区,那该有多好!

个人觉得吧,这种模式在某些特定领域会更受欢迎。比如,对于那些需要大量编程实现的数学工具,AI辅助开发可以节省大量时间。但是,对于一些更注重理论推导和原创性思想的研究,可能AI的帮助就相对有限。所以,这应该是一种工具,而不是万能钥匙,用得好能事半功倍,用不好反而会适得其反。

完全自动证明的瓶颈,我认为主要在于AI对问题的理解深度和创造性上。现在的AI在逻辑推理和计算方面很强大,但缺乏人类那样的直觉和灵感,难以找到证明的关键突破口。要实现完全由AI驱动的数学证明,可能需要AI在知识表示、问题分解、策略选择等方面取得重大突破,并结合强大的计算能力。

我觉得对于数学形式化证明的协作,工具支持方面还需要考虑以下几点:一是版本控制,需要更强大的版本控制系统,能够同时记录和管理人类证明和AI生成证明,方便比较和追溯;二是知识库管理,需要一个方便的知识库,能够存储和检索已证明的定理、引理等,方便共享和复用;三是交流平台,需要一个高效的交流平台,方便研究者之间进行讨论和协作,分享思路和经验;四是可视化工具,需要一些可视化工具,能够将复杂的证明过程以图形化的方式呈现出来,方便理解和调试。

我觉得纯自动证明的最大问题是“灵感”的缺失。数学证明很多时候需要一些非常规的思路,甚至是一些“跳跃性”的思考。目前的AI,包括Copilot和Lean,更多的是在已知框架内进行搜索和组合,很难产生真正意义上的创新。所以,短期内,半自动交互式证明可能还是主流。

我觉得这种模式很有潜力成为常态。好处显而易见,可以大幅提升开发效率、降低重复性劳动。像Copilot这样的工具,能够快速生成代码、提供建议,让研究者更专注于核心算法和创新。但是,风险也不容忽视。过度依赖AI可能导致对底层原理理解不足,甚至出现AI产生的错误难以察觉的情况。此外,如果AI的训练数据存在偏差,可能会影响科研结果的客观性。

个人认为,完全AI驱动的数学证明在理论上是可能的,但短期内希望渺茫。数学证明本质上是一种创造性的活动,需要对数学概念有深刻的理解,以及强大的逻辑推理能力和直觉。目前的AI在模式识别和计算方面表现出色,但在理解和创造性方面仍然存在很大的差距。此外,如何让AI能够有效地探索和利用数学知识,也是一个巨大的挑战。不过,随着AI技术的不断发展,也许未来会出现能够进行数学创造的AI也说不定呢。

版本控制的确是个大问题。如果能像代码一样,用Git来管理证明,那简直太棒了。每个人可以有自己的分支,尝试不同的证明思路,然后合并到主分支。另外,感觉还需要一个智能的搜索功能,能够根据关键词或者证明目标,快速找到相关的定理和引理。最后,如果能把证明过程可视化,那就更好了,可以更直观地理解每一步的逻辑。

谢邀,人在实验室,刚下产线。我认为这种开发模式是趋势,但需要结合实际情况。工具是死的,人是活的。Copilot 这种东西可以看作是一种智能化的“代码生成器”,能帮你快速实现一些功能,但前提是你得知道你要做什么。如果完全依赖 AI,可能会陷入“garbage in, garbage out”的困境。所以,关键还是在于研究者自身的能力和判断力。