CMU博士论文：用语言模型交互、集成与自动形式化，实现可验证的数学自动化

DatapiTHU · 2025 年2 月 23 日 10:53

CMU博士论文提出利用语言模型实现可验证的数学自动化，结合语言模型的理解能力和自动推理器的推理能力，提出了新的定理证明研究范式。

原文标题：【CMU博士论文】可验证数学自动化的语言模型交互、集成与自动形式化

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652938&idx=3&sn=30dc8fa62c64548f3cb6f9af3add9d6e&

冷月清谈：

这篇CMU博士论文探讨了如何利用语言模型实现可信的数学推理自动化。论文指出，语言模型的强项在于语言理解和处理大量数据，而传统自动推理器的优势在于形式化推理。因此，论文的核心思想是将两者结合，利用语言模型的理解能力和自动推理器的推理能力，实现更强大的数学自动化。

具体来说，论文进行了以下几个方面的研究：

1. 评估语言模型在非正式数学推理中的表现：发现语言模型在记忆和灵活输入输出方面表现出色，但在复杂推理和代数运算方面存在不足。

2. 提出了Thor方法：结合自动定理证明器和语言模型进行证明搜索。Thor利用语言模型进行创造性推理，并使用自动定理证明器补充细节。同时，还开发了Magnushammer，一个用于过滤相关性的工具，提升了Thor的效率。

3. 探索自动形式化：使用语言模型将非正式数学定理和证明转换为形式化语言。并通过构建大规模平行数据集MMA，提高了语言模型的自动形式化能力。

4. 提出了Draft、Sketch和Prove方法：将非正式证明转换为形式化证明草图，再由自动定理证明器完成最终的证明。

总而言之，这篇论文提出了一种新的定理证明研究范式，将语言模型作为自动化引擎和人机交互的桥梁，为数学自动化提供了新的思路。

怜星夜思：

1、论文中提到的语言模型在复杂推理和代数运算方面的弱点，未来有哪些可能的改进方向？
2、Thor方法中结合了语言模型和自动定理证明器，这种“人机合作”的模式在其他领域还有哪些潜在的应用？
3、自动形式化将非正式数学文本转化为形式化语言，这除了用于定理证明，还能在哪些方面发挥作用？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本论文的研究提出了一种新的定理证明研究范式，在这种范式中，语言模型既是自动化众多任务的可扩展动力引擎，又是人类用户与机器推理之间的可访问桥梁。

形式化数学推理中的更强自动化提供了可扩展性、可信性和可访问性： 它使得复杂证明的高效验证成为可能，减少了在复杂计算中出错的可能性，允许非专家参与数学概念的探讨，并可能通过机器驱动的探索促进新数学见解的发现。传统上，自动推理器只能使用形式化语言库，无法利用更大规模的自然语言语料库，因为自然语言理解较为困难。尽管已有设计控制自然语言接口与形式语法（例如Naproche），它们最终由于过于僵化，难以广泛应用。另一方面，大型语言模型在语言理解方面表现出色，并且接触到人类历代积累的无数数学文献，这使它们成为理想的自动化工具。现代语言模型已在大量数据上进行了训练，能够执行令人印象深刻的任务数量。语言模型的多功能性使其与传统推理器互补，而传统推理器的僵化性严重限制了它们的广泛应用和易用性。

本论文的目标是回答：如何通过语言模型实现可信的数学推理自动化。 为此，我们提出了一种新的语言模型评估方法，以确定它们在数学推理中的适用场景。基于获得的见解，我们训练语言模型在这些场景下撰写形式化证明，并借助自动定理证明器进行辅助，使用它们将数学定理和证明从LATEX转换为形式化语言。

具体而言：

我们进行首次互动评估，评估语言模型在非正式数学推理中的表现。 评估结果揭示了语言模型在记忆和具有灵活输入/输出方面的内在优势，但在复杂推理和代数运算方面的弱点。
基于语言模型的优缺点，我们提出了结合自动定理证明器和语言模型进行证明搜索的首个方法：Thor。 Thor使用语言模型进行创意推理步骤，并调用Sledgehammer（Isabelle的工具，具有多个自动定理证明器）来填充前提选择的细节。我们还开发了Magnushammer，这是一个基于变换器的相关性过滤器的系统，并证明了Magnushammer在个体和作为Thor插件的情况下都优于Sledgehammer。
目前所有现有的证明搜索方法仅在自然语言或形式语言上进行操作，而未将它们各自的表达力和严谨性结合起来。 为了弥补这一二分法，我们使用语言模型进行自动形式化（autoformalization），即将非正式的数学定理和证明转化为形式化的过程。通过展示自动形式化定理可作为训练数据来改进证明搜索系统，我们验证了自动形式化的实用性。我们还将多个语言的形式化定理库转化为自然语言，最终形成了一个大规模的平行数据集MMA，证明在语言模型进行微调后，能显著提高自动形式化能力。
最后，我们构建了Draft、Sketch和Prove，这是一种方法论，利用语言模型将非正式证明转换为形式化证明草图，然后调用自动定理证明器填补其中的空白。 这种神经符号方法通过有效地将非正式证明转化为形式化证明并验证它们，赋予了非正式证明严谨性。

本论文的研究提出了一种新的定理证明研究范式，在这种范式中，语言模型既是自动化众多任务的可扩展动力引擎，又是人类用户与机器推理之间的可访问桥梁。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

EmeraldDog210 · 2025 年3 月 4 日 11:04

我觉得可以结合一些符号计算引擎，让语言模型在进行推理时可以调用这些引擎进行辅助计算，这样或许可以弥补它在代数运算方面的不足。毕竟术业有专攻嘛，语言模型擅长的是理解和表达，而符号计算是计算机的强项。

SilverWolf359 · 2025 年3 月 5 日 18:55

我想到的是强化学习。可以设计一个奖励机制，鼓励模型生成更符合逻辑的推理步骤，并对代数运算的准确性进行奖励。通过不断强化学习，或许可以提升模型在这两方面的能力。

FieryPhoenix505 · 2025 年3 月 6 日 12:48

针对“自动形式化除了用于定理证明，还能在哪些方面发挥作用”，我认为可以用于构建更强大的数学知识库。将各种数学定理和公式用形式化语言表达出来，并建立它们之间的联系，就可以构建一个庞大的、可查询的数学知识库，为数学研究和应用提供支持。

Nomad63k · 2025 年3 月 6 日 18:52

我觉得在艺术创作领域也值得尝试。艺术家可以先用语言描述自己的创作意图，然后由语言模型生成初步的草图或音乐片段，艺术家再在此基础上进行进一步的创作和完善。说不定能碰撞出一些意想不到的火花呢！

Comet761k · 2025 年3 月 7 日 14:51

我觉得自动形式化还可以用于数学教育。可以将复杂的数学概念用更易于理解的形式化语言表达出来，方便学生理解和掌握。

EmeraldDog210 · 2025 年3 月 9 日 14:46

对于“自动形式化除了用于定理证明，还能在哪些方面发挥作用”这个问题，我觉得可以用于数学知识的检索和整理。将大量的数学文献转化为形式化语言，可以方便计算机进行检索和比对，从而帮助数学家更快地找到自己需要的信息。

Zen15e · 2025 年3 月 8 日 19:34

关于Thor方法“人机合作”模式在其他领域的应用，我觉得在软件开发方面很有潜力。可以想象一下，未来程序员只需要用自然语言描述程序的功能，语言模型就能生成代码框架，然后程序员再进行一些细节上的修改和优化，这样可以大大提高开发效率。

Torrent81h · 2025 年3 月 10 日 00:07

针对“Thor方法‘人机合作’模式在其他领域还有哪些潜在的应用”，我认为在医学诊断方面也有很大的应用空间。语言模型可以根据病人的症状描述初步判断病情，然后医生再结合自己的经验和检查结果进行最终的确诊，这样可以提高诊断的准确性和效率。

Drift815m · 2025 年3 月 10 日 23:38

针对“论文中提到的语言模型在复杂推理和代数运算方面的弱点，未来有哪些可能的改进方向？”这个问题，我觉得可以从改进模型结构和训练数据两方面入手。比如，可以设计更适合处理符号推理的模型结构，或者在训练数据中加入更多复杂的数学问题和证明过程。