Meta-CoT：迈向LLM系统2推理的新框架

almosthuman2014 · 2025 年1 月 11 日 12:32

Meta-CoT 框架通过显式建模底层推理过程扩展了传统思维链方法，有望使LLM实现更强大和更类人的推理。

原文标题：迈向System 2推理，100页论文硬核讲述Meta-CoT

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650950924&idx=2&sn=8fa831e536bcf627684ef50a920e7c3b&

冷月清谈：

Meta-CoT框架扩展了传统的思维链（CoT）方法，通过显式建模生成特定CoT所需的底层推理过程，以期解决复杂问题。传统的CoT方法在简单问题上有效，但未能捕捉到复杂推理的真实数据生成过程，这个过程通常是非线性、迭代的，包含探索与验证。Meta-CoT通过显式建模这种潜在的“思考”过程来扩展CoT，对解决需要高级推理能力的问题至关重要。

该研究认为预训练语料库中的推理数据，尤其是复杂问题的推理数据，并不代表真正的数据生成过程，它实际上是大量潜在推理的产物。教科书中通常只包含高级证明，而没有推导这些证明的完整思考过程，导致模型难以解决高级推理问题。

Meta-CoT 将推理解释为潜在变量过程，认为解的联合概率分布以潜在生成过程为条件。研究指出，像OpenAI的o1这样的模型在解决难题时，会根据难度逐步使用更多计算，似乎遵循了真正的数据生成过程，而不仅仅是最终输出。

研究认为，对于许多高级推理或目标导向问题，生成解决方案和验证解决方案之间存在显著的复杂性差异，文本语料库中呈现的挑战性问题的解决方案是一个扩展搜索过程的结果。Meta-CoT 通过在自回归模型的上下文中整合搜索，可以有效地完成探索，因为模型可以访问上下文中所有先前访问过的节点。

论文还探讨了通过过程监督来训练Meta-CoT模型的方法，以及通过蒙特卡洛树搜索（MCTS）和A *等搜索算法生成合成数据的技术。最后，论文概述了一个在单一端到端系统中实现Meta-CoT的具体流程，该流程结合了带有线性化搜索痕迹的指令调整和强化学习（RL）后训练。

怜星夜思：

1、Meta-CoT 中提到的“生成器-验证器 gap”具体指什么？如何理解这种 gap 对 LLM 推理能力的影响？
2、文章提到了 o1 模型似乎能够根据问题难度调整计算量。这是否是通往更通用人工智能的关键？
3、如何有效地将 Meta-CoT 的思想应用于实际的 LLM 训练中？文中提到的搜索算法和过程监督有哪些实际操作上的挑战？

原文内容

机器之心报道

机器之心编辑部

Meta-CoT 通过显式建模生成特定思维链（CoT）所需的底层推理过程，扩展了传统的思维链方法。

「我们有一份关于『推理时间计算』的新研究，以及我们过去几个月一直在研究的内容！我们提出了一些理论，说明为什么它是必要的，它是如何工作的，我们为什么需要它，以及它对超级智能意味着什么。」

刚刚，斯坦福博士生 Rafael Rafailov 在 X 上官宣了一项他参与的新研究《 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 》。

Rafailov 进一步表示，「我们需要高级推理的主要原因在于问题的复杂性。模型训练数据中虽然包含了难题的解决方案，但并未涵盖这些解决方案的真实数据生成过程。解决方案本身是某种复杂的元思维链（Meta-CoT）的输出，而这一过程并未被明确记录下来。」

图为解决一个数学问题的过程，这个问题是要找到一种运算符序列（包括加号 +、减号 -、乘号 * 和除号 /），使得数字 7、3、11、5 通过这些运算恰好使用一次得到结果 24。

Rafailov 所说的 Meta-CoT，是一种新颖的框架，它通过显式建模生成特定思维链（CoT）所需的底层推理过程，扩展了传统的思维链方法。

该研究认为，传统的 CoT 方法虽然在解决简单问题时有效，但未能捕捉到复杂推理的真实数据生成过程，这一过程通常涉及非线性、迭代性和潜在的探索与验证。Meta-CoT 通过显式建模这种潜在的「思考」过程，扩展了 CoT 方法。本文认为，这种建模对于解决需要高级推理能力的问题至关重要。

论文地址：https://arxiv.org/pdf/2501.04682

该研究从认知科学的双过程理论中汲取灵感，将 Meta-CoT 框架看作为一种 System 2 推理形式。本文奠定了 Meta-CoT 理论基础，展示了如何通过系统搜索过程实现这一框架，以及如何将这些过程内化到一个单一的自回归模型中。随后，本文提供了实证证据，包括对 OpenAI 的 o1 和 DeepSeek-R1 等顶尖模型的分析，这些模型展现出了与内化（上下文）搜索一致的行为。接着本文进一步探索了通过过程监督来训练 Meta-CoT 模型的方法，以及通过蒙特卡洛树搜索（MCTS）和 A * 等搜索算法生成合成数据的技术。

最后，本文概述了一个在单一端到端系统中实现 Meta-CoT 的具体流程，该流程结合了带有线性化搜索痕迹的指令调整和强化学习（RL）后训练。

本文还介绍了一个名为 Big MATH 的项目，该项目整合了超过 100 万个高质量、可验证的数学问题，以促进这一领域进一步研究。

该研究不仅提供了理论洞见，还为在 LLM 中启用 Meta-CoT 提供了一条实践路线图，为人工智能实现更强大和更类人的推理铺平了道路。

为什么要提出 Meta-CoT？

Meta-CoT 是什么样的？

我们要问自己一个问题：具有「思维链」提示功能的语言模型是否真的能够表达任何函数，从而解决任意复杂的问题？今天，前沿模型的能力足以解决一大类数学推理问题。但是，它们仍然难以解决高级问题，如 HARP 和 Omni-MATH（通用奥林匹克级别数学基准）。作者提出了以下理论来解释这些经验观察结果：

预训练语料库中的推理数据并不代表真正的数据生成过程，尤其是复杂问题的数据生成过程，它是大量潜在推理的产物。此外，这一过程一般不会以从左到右、自回归的方式进行。

更详细地说，预训练语料库和后训练指令微调中普遍存在的思维链（CoT）推理数据遵循简单问题（如代数计算、计数、基础几何等）解决方案的真实数据生成过程。例如，解决高中代数问题的教科书展示了生成答案的一般过程。如果我们遵循现有教科书中呈现的一些步骤或方法，我们最终可以得出解答。因此，这些可以通过具有恒定深度的 transformer 来学习，这些 transformer 能够表达过程中每个单独步骤的复杂性。

相比之下，复杂推理问题并不遵循这种模式。我们可能有一组三元组（q, S, a），其中 q 是问题，S = (s_1, ..., s_n) 是解答步骤，a 是（可选的）答案，但真实的数据生成过程并非自回归的：

z_𝑖是解答步骤中遗漏的潜在「思考」，这些可以通过从左到右的生成来完全表示，而数据集中的解答步骤 S = (s_1, ..., s_n) 是联合生成的。

我们可以通过将推理解释为潜在变量过程来形式化这一论证。具体来说，经典的思维链（CoT）可以被看作是：

即，最终答案产生的概率是通过对潜在推理链的边缘化得到的。作者主张，对于复杂问题，真实的解生成过程应该被视为：

即，解（a，s_1, . . . , s_n）的联合概率分布以潜在生成过程为条件。请注意，这个参数是先前的 CoT 参数的 meta-generalization，因此作者将过程 q→z_1 → . . . → z_K 称为 Meta-CoT。

传统 CoT 有什么问题？

根据之前的讨论，一个问题自然地浮出水面：为什么 LLM 在这些高级推理任务上失败了？如上所述，作者提出了预训练和指令微调语料库由类型为（q, s_1, ..., s_n, a）的数据组成，这些数据并不包含如方程 1 所示的真实数据生成过程。这个现象很常见 —— 教科书包含高级证明，但不包含推导这些证明的完整思考过程。

很多使用传统思维链的工作受此影响，但 OpenAI 的 o1 系列看起来是个例外。作者表示，他们在困难的数学问题上看到了这种差异：「标准」模型会「模仿」人类编写的解决方案（训练数据），而像 o1 这样的模型则根据难度逐步使用更多的计算。它似乎遵循真正的数据生成过程，而不仅仅是最终输出（CoT）。

图片1080×866 253 KB

用语言模型进行深思熟虑的推理 —— 搜索

上一节介绍了 Meta-CoT 过程，并指出 LLM 在高级推理任务上表现不佳的原因是训练数据未能充分代表真实的数据生成过程，即文本语料库中未包含（或仅包含有限数量的）Meta-CoT 数据。因此，剩下的问题是：真实的数据生成过程是什么样的？

首先，本文主张对于许多高级推理或目标导向问题，生成（问题的解决过程）和验证（解决方案的正确性检验）之间存在显著的复杂性 gap。

其次，假设存在一个不可忽视的生成器 - 验证器 gap，作者认为文本语料库中呈现的挑战性问题的解决方案是一个扩展搜索过程的结果，这个过程本身在数据中并没有得到体现。

作者表示，事实上，在基本策略之上构建搜索能力已经一次又一次地被证明会带来巨大的能力提升。不过，这需要更多数量级的 scale 和数据才能内化到单个模型中。

迈向 Meta-CoT 推理

为什么需要将深思熟虑的推理过程内化到一个单一模型中？作者提出了两个主要原因：

首先是效率：通过在自回归模型的上下文中整合搜索，可以有效地完成探索，因为模型可以访问上下文中所有先前访问过的节点。事实上，正如图 14 所示，即使是高级推理模型也会执行许多语义相同的重复推理步骤。

其次是超级智能：如果一个自回归模型能够学会在上下文中实现搜索算法，那么额外的强化学习（RL）训练可能使模型发现新的推理方法。这将可能使模型能够解决在基于符号的树搜索方法下解决以前无法解决的问题类别。

在接下来的部分，作者进一步探讨了如何训练一个模型来内化这样一个推理系统。

作者介绍了 STaR（Self-Taught Reasoner）方法背后的核心思想，该方法用于引导中间 CoT 步骤，以及如何将类似的概念泛化到元推理策略中。

具体而言，STaR 方法引入了一种迭代 bootstrapping 方法，旨在提高 LLM 的推理能力。STaR 专注于训练模型以生成和完善推理过程，特别是对于需要复杂推理的任务，其采用了基于强化学习的方式来进行。

之后作者将 STaR 的思路扩展到 Meta-CoT。

通过搜索合成 Meta-CoT

本文探索了两种用于生成合成训练数据的主要搜索算法：蒙特卡洛树搜索 (MCTS) 和 A* 变体。

蒙特卡洛树搜索如下：

与图 12 中由蒙特卡洛树搜索（MCTS）产生的路径相比，A* 搜索具有更少的回溯步骤，主要集中在关键步骤上。

过程监督

搜索方法的一个关键组成部分是评估函数𝑣(q, S_𝑡)，它对推理链中的中间状态进行评分。这些评估函数被广泛称为过程奖励模型（Process Reward Models，简称 PRM）。通过整合过程监督，搜索机制获得了在遇到次优路径时回溯到早期有前景状态的灵活性，从而实现了更有效的探索。然而，如何有效地获取这些能力仍然是一个未解决的问题。

作者概述了构建此类过程指导模型的策略：

学习过程奖励模型；
PRM 质量及其对搜索的影响；
可验证问题与开放式问题。

在论文第 6 章，作者从元学习和元强化学习的角度对推理问题和 Meta-CoT 进行解释。

在前面章节中，作者通过计算复杂性和生成器 - 验证器 gap 的范例来激发上下文搜索的需求。在本节中，作者建立了一个替代公式，以帮助形式化强化学习训练的实证结果。

作者假设奖励函数𝑟(S, q) → {0, 1} 是提示 q 的确定性（但先验未知）函数，它只接受特定的解决方案集。在新的提示下进行测试时，这会产生奖励函数的认知不确定性，即我们事先不知道该任务（提示问题）的完整接受或拒绝的解决方案集。

在接下来的第 7 章，作者提出了一种基于搜索的高级推理理论，以及一些早期的实证研究结果。作者建议遵循现代后训练的整体结构，包括指令微调和强化学习训练。感兴趣的读者，可以查看原论文了解更多内容。

总结

本文引入了 Meta-CoT 框架，用于理解和增强大型语言模型（LLMs）的推理能力。作者认为传统的思维链并不能完全代表推理问题背后的数据生成过程。通过融入搜索、验证和迭代优化的概念，Meta-CoT 为高级问题解决所需的认知过程提供了一个更完整的模型。

Meta-CoT 是实现大型语言模型更强大、更具泛化性推理能力的一种有前景的途径。当前最先进模型的表现，以及在上下文探索和回溯方面的实验，都支持了内部搜索过程对于复杂任务表现至关重要的假设。此外，本文提出的训练流程为开发具有增强 Meta-CoT 能力的大型语言模型提供了一种具体的方法。

了解更多内容，请参考原论文。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Haven14j · 2025 年1 月 12 日 14:46

打个比方，就像写小说和评论小说。写小说需要构思情节、塑造人物，难度很大；而评论小说只需要分析已有的内容，相对容易。LLM 现在更擅长“评论小说”，也就是验证答案，但不太会“写小说”，也就是自己生成答案。

Echo319s · 2025 年1 月 13 日 02:19

我觉得最大的挑战在于计算资源。搜索算法本身就比较耗时，再加上 LLM 的训练本来就需要大量的计算资源，所以如何高效地进行搜索和训练是一个难题。另外，如何设计合适的搜索空间和评估函数也需要仔细考虑。

Summit72v · 2025 年1 月 13 日 03:07

这可能是一个重要的方向，但目前还不好说。毕竟 o1 模型的具体机制还不清楚，它也可能只是在拟合某种复杂的模式，而不是真正的理解。要判断这是否是通往通用人工智能的关键，还需要更多的研究。

Frost16y · 2025 年1 月 13 日 06:49

可以把 Meta-CoT 的训练想象成训练一个会解题的小朋友。我们需要给他一些例题，并告诉他每一步的思路是否正确。MCTS 和 A* 搜索算法就像老师在给小朋友演示解题过程，而过程监督就像老师在批改作业。实际操作中，如何选择合适的例题、如何设计有效的演示方法和批改标准都是需要考虑的问题。

Sprite72n · 2025 年1 月 13 日 11:18

“生成器-验证器 gap”指的是生成一个解决方案和验证这个解决方案的难度差异。生成解决方案可能需要复杂的搜索和试错，而验证一个给定的解决方案则相对简单。这种 gap 会导致 LLM 更容易学习到验证过程，而不是生成过程，从而限制了其在复杂问题上的推理能力。

WinterFox306 · 2025 年1 月 16 日 16:15

o1 模型的行为确实很有意思，它暗示了模型可能具备某种元认知能力，能够根据任务的复杂性调整自己的策略。如果能进一步发展这种能力，或许可以让 LLM 真正地“思考”，而不是简单的模式匹配。

Ion31q · 2025 年1 月 17 日 11:08

可以理解为解题和验算的区别。解题需要探索各种可能性，而验算只需要按照步骤检查。LLM 目前的训练方式更偏向于学习验算，因为它更容易从数据中学习，但这样就难以掌握真正的解题思路。

Quartz24q · 2025 年1 月 17 日 13:32

将 Meta-CoT 应用于实际训练的一个主要挑战是如何获取高质量的训练数据，特别是包含详细推理过程的数据。文中提到的 MCTS 和 A* 搜索算法可以生成合成数据，但如何确保这些数据的质量和多样性是一个关键问题。另外，过程监督也需要设计合适的奖励函数和评估指标。

NobleStag037 · 2025 年1 月 18 日 03:15

我觉得这就像玩游戏，简单的游戏随便玩玩就能过关，难的游戏就得认真思考策略。o1 模型就像一个会根据游戏难度调整策略的玩家，虽然离真正的游戏高手还有差距，但至少比只会一种玩法的玩家要强。