CoT赋能Transformer，推理无上限？田渊栋、LeCun发问：两层神经网络不也行

almosthuman2014 · 2024 年9 月 19 日 17:30

原文标题：CoT能让模型推理能力无上限？田渊栋、LeCun下场反对：两层MLP还能模拟全世界呢

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650934999&idx=1&sn=7b351f17dad9dd61d6cb0f1b0f84533a&

冷月清谈：

**研究背景：**

麻省理工大学 Denny Zhou 等人在论文《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》中提出，引入思维链（CoT）能显著提升 Transformer 的推理能力。

主要结论：

论文从理论上证明，当 Transformer 的嵌入维度与输入序列长度对数成比例，并配备足够多的中间推理步骤时，可以模拟任意正规语言且解决所有问题。

实验结果：

实验表明，引入 CoT 后，Transformer 在模加法、排列组合、迭代平方和电路值问题上均取得了显著的准确率提升。

争议与讨论：

该研究引发争议，主要关注点在于：

**理论与实际差距：**模拟门电路运算等实验无法完全反映大模型在真实场景下的行为。
**资源限制：**在实践中实现 CoT 需要极大的计算资源，随着输入规模呈指数级增长。
**无限猴子定理：**CoT 是否类似于让猴子随机按键，最终生成正确结果的无限猴子定理。

业内大佬质疑：

田渊栋和 Yann LeCun 等业内大佬质疑 CoT 的实际效用，认为实际应用中存在挑战，并且担心仅靠扩展 CoT 无法解决所有问题。

后续研究：

这篇论文提出了一个值得探讨的新方向，未来需要更多研究来验证 CoT 在实际应用中的潜力。

怜星夜思：

1、在你们看来，CoT 能否像论文中宣称的那样让 LLM 拥有无上限的推理能力？
2、正如有些人指出的，CoT 的原理是否与无限猴子定理十分相似？
3、面对 CoT 的理论潜力，Meta 为何一直反对通往 AGI 的主流路径？

原文内容

机器之心报道

机器之心编辑部

「这相当于在理论上，两层神经网络在理论上可以拟合任何数据，我们就盲目相信并应用在所有场景中。」

大模型新范式 OpenAI o1 一经发布，如何「复刻」出 o1 便成为了 AI 圈最热的话题。

由于 OpenAI 对技术细节守口如瓶，想从 AI 那里「套话」，让它复述完整的内部推理过程，多问几句，OpenAI 直接发邮件警告要撤销你的使用资格。想从技术报告中想找出点蛛丝马迹，也同样困难。于是，大家将目光转向了以往类似的研究成果，希望从中找到些线索。

比如，Google Brain 推理团队创建者 Denny Zhou 立刻拿出了他在今年 5 月份发表的论文：《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》。这篇论文的作者阵容也很豪华，除了 Denny Zhou，还有斯隆奖得主马腾宇以及他的两位学生。

论文链接：https://arxiv.org/abs/2402.12875

Denny Zhou 表示，他们已经在数学上证明，只要允许 Transformer 模型生成足够多的中间推理 tokens，它们就能解决任何问题，让 LLM 的推理没有上限。

概括起来，这篇论文主要证明了引入思维链（CoT）能够显著提升 Transformer 的表达能力，使其能处理更加复杂的问题。

加入 CoT

1 层的 Transformer 也能做复杂推理题

一直以来，大家都在寻找突破 Transformer 架构的方法。Transformer 虽擅长并行计算，却难以处理串行推理。并行计算意味着模型可以同时处理多个步骤，对于需要逐步推理的问题尤为重要。

对此，论文作者们提出了一个假设：CoT 可以帮助 Transformer 完成原本无法做到的串行计算。

论文作者们采用了电路复杂性（circuit complexity）来讨论 Transformer 的能力。

电路复杂性按复杂程度分为不同类别，如：

AC⁰：仅使用 AND、OR、NOT 门，深度为常数，通常适用于比较简单的并行计算问题。
TC⁰：扩展了 AC⁰类问题，增加了多数决定门（MAJORITY gates），能处理更复杂的并行计算问题。

此前的研究已经表明，仅解码器架构的 Transformer 能够高效并行计算，但它们的计算能力有限，只能解决通过 TC⁰类电路能够计算的问题。如果限制条件更加严格，不允许使用多数决定门时，Transformer 的计算能力只能解决 AC⁰类问题。

论文指出，没有 CoT 时，Transformer 的串行计算次数受到模型深度的限制，深度越大，能处理的串行计算步数越多。但深度是固定的，无法随任务增加而增长。引入 CoT，则解决了这个问题，能让 Transformer 生成 T 步的中间步骤，增加串行计算的次数到 T。

论文进一步证明，如果 Transformer 的嵌入维度与输入序列长度的对数成比例，并且配备 T 步的中间步骤，那么该 Transformer 能够模拟大小为 T 的布尔电路，进而解决 P/poly 类问题。如果 T 值线性增长，Transformer 可以处理所有正规语言的问题，包括 S₅ 这样的复杂群组合问题

为了验证上述理论分析，作者通过实验比较了引入 CoT 前后，Transformer 在解决模加法、排列组合、迭代平方和电路值问题这四个核心任务上的表现。实验分别在三种设置下进行：

Base 模式：模型直接生成结果，目标是最小化预测结果与真实值之间的差距。
CoT 模式：在每个问题上为模型手动设计了思维链，评估模型是否能够正确预测整个思维链中的每个 token。
Hint 模式：为模型提供部分提示信息，帮助其更好地生成中间步骤。对于 Base 模式和 Hint 模式，直接评估最终答案的准确性。

模加法（Modular Addition）

给定任意正整数 p，这个任务的目标是通过模运算来计算一个词表的和。论文作者按照以下方式生成序列 x = (x₁, ..., xₙ)：对于每个 i ∈ [n − 1]，从 {0, 1, ..., p − 1} 中独立采样 xᵢ，并将 xₙ设为 '='。模运算结果为：

;引入 CoT 后为，。

如下图所示，当 p=7 时，浅层 Transformer 在有提示的情况下能够很好地解决输入序列较短时的问题，但使用 CoT 时，尤其是在较长的输入序列中，模型的表现要好得多。

排列组合（Permutation Composition）

给定一个自然数 p，该任务的目标是对词表 {1, . . . , p,(,), =} 中的所有元素进行排列组合，得到。最终输出是将所有排列组合整合在一起的结果：

。

对于 CoT 模式，Transformer 不直接计算最终结果，而是逐步地、部分地进行计算。

下图展示了排列组合（S₅）在 Hint 模式和 CoT 模式两种不同模式下的表现，其中横轴表示输入序列的长度，纵轴表示模型的层数，颜色代表准确率。

在 Hint 模式下，即使 Transformer 有 12 层，准确率仍然非常低，基本维持在 20% 左右，几乎是在 1-5 之间随机猜测的水平。只有当输入序列长度非常短（长度为 3）且层数较多时，准确率才能有所提高，但仍然不超过 56%。

在 CoT 模式下，Transformer 表现显著提高。无论序列长度多长，准确率都接近 100%。当序列长度增加至 33 和 36 时，层数为 1 的模型准确率有所下降，分别为 54% 和 46%，但这仍然远高于 Hint 模式的表现。

迭代平方（Iterated Squaring）

迭代平方问题在密码学中被广泛用于构造加密算法。它之所以重要，是因为该问题被认为计算难度很高，即使使用非常强大的并行处理器，也无法在合理时间内找到有效的解决方法。具体来说，给定三个整数 r、n、p，Transformer 需要计算：。

如下图所示，随着模型层数和输入长度的增加，Hint 模式下，Transformer 的表现逐渐变差。对于较短的输入长度（如 6 和 14），即使层数较少，Transformer 仍然能保持相对较高的准确率（分别为 94% 和 89%），但当输入长度增加到 30 或更长时，准确率显著下降，尤其是模型层数较少时。

而在 CoT 模式下，无论序列长度和模型层数如何，Transformer 的表现都保持了 100% 的准确率。

电路值问题（Circuit Value Problem）

要计算电路值问题，模型需要根据输入：，计算出电路最后的逻辑门 m 的值。

如下图所示，在 Hint 模式下，在序列长度较短时，准确率还能保持 100%，但当长度较长时，准确率有大幅下降。使用 CoT 后，即使 Transformer 只有 1 层，就能达到接近 100% 的准确率。

更多研究细节，请参考原论文。

理论很丰满，现实却很骨感？

CoT 对 Transformer 的增益如此强大，这令人不禁联想：o1 思考时间的时间越长，准确率也会提升，或许这个思路正与 o1 的核心理念不谋而合？

看到能为更强大的 LLM 推理新范式的曙光初现，评论区一片沸腾，纷纷送上祝贺：如果这项研究是真的，那么 AGI 可能很近了……

与此同时，这篇论文也引发了不少争议。

比如有网友提出质疑，「所有问题都解决了，那大模型会出幻觉的问题解决了吗？」

网友进一步发难：「这种方法能算是真正基于意义的推理吗？因为它没有考虑中间层也可能会产生幻觉的问题。这感觉更像是从一堆解决方案叠加在一起，然后挑出重合的部分？不就是单纯增加了正确的概率而已？」

此外，这发生在检索阶段，而非在训练阶段，也就是说模型还是不能实时学习，无法随着输入更多数据不断改进......

还有网友指出，虽然论文中通过「模拟门电路运算」等实验从理论上进行了证明，但这样的模拟方式可能不能完全反映出大模型在真实环境中的行为。

比如对量子模拟、医学诊断等领域可能就没什么说服力。

更令人担忧的是，这种方法在现实中很难实现，因为它需要极大的计算资源和时间，而这些都会随着输入规模呈指数级增长。

「要达到人类级别的智能，暴力解法可能需要为每个问题生成上亿种解决方案。这就是为什么单靠扩展计算能力行不通。人类解决问题时不会考虑成千上万种可能性，而是凭直觉和推理迅速缩小到几个可行的选项。如果我们想实现 AGI，AI 系统也需要模仿这种高效的方式。」

按这个思路想下去，不少网友缓缓地打出了一个问号：这不就是智能时代的「无限猴子定理」吗？让一只猴子在打字机上随机地按键，只要给它的时间够多，它最终必然能打出任何给定的文字，无论是《红楼梦》还是《莎士比亚全集》。

Hacker News 甚至就这点讨论出了一座高楼，但大多数人还是觉得，既然 ICLR 2024 都接收了这篇论文，那应该没有问题吧？

随着论文热度的不断攀升，田渊栋和 LeCun 等业内大佬也亲自下场发问：「CoT，真的有这么神奇吗？」

田渊栋指出，Denny Zhou 等人提出了一种理论上的假设，实际操作中可能远没有那么简单。

尽管 CoT 非常有用，但我并不完全同意仅靠盲目扩展它就能解决所有问题。论文中提出了一种通用理论 —— 我们可以显式地构建 Transformer 的权重，使其更好地适应特定任务。虽然模型的深度可以保持常数，但 CoT 的长度可能会非常长，而这种权重能否通过梯度下降算法学到，仍是未知数。

他用了一个形象的比喻来说明这个问题：这有点像「在理论上，两层神经网络在理论上可以拟合任何数据，我们就盲目相信并应用在所有场景中」。

相比之下，人类的推理链非常简洁，即使面对从未见过的问题，也能迅速抓住解决问题的关键。田渊栋认为，如何学习或构建出这样的表示，是一个令人着迷的课题。

看到学生的评论，Yann LeCun 也发来了声援：「我本来想说这个的，但被渊栋抢先了。」

作为「深度学习三巨头」之一，LeCun 表示：「两层网络和核机器（kernel machines）可以无限逼近任何函数，因此我们不需要深度学习。你可能不敢相信，从 1995 年到 2020 年，我听过多少次这种论点！」

LeCun 进一步解释道：「理论上是可行的，但问题在于，实际应用中，如果只使用两层网络，第一层的神经元数量可能会多到不可操作。」

针对「两层MLP」这个比喻中的问题，专注于生物学领域的 AI 研究实验室 EvolutionaryScale 的联合创始人 Zeming Lin 提出了自己的想法：

「我认为我们需要为机器学习模型构建类似乔姆斯基层次结构的框架。比如，是否存在适用于机器学习模型的 NP、P、O (n^2) 等概念，并明确 Transformer 或 Mamba 在这个层次结构中属于哪一类。」

田渊栋表示支持：「因为涉及不同的数据分布、模型架构、学习算法、后处理等等，问题远比想象的要复杂得多。」

虽然田渊栋可能并不完全认同这篇论文的思路，但他并没有否定继续尝试的必要性。

而这篇可能证明了 CoT 能赋予基于 Transformer 架构的 LLM 更强推理能力的论文却让一向「不太喜欢」AGI，多次称 LLM 无法实现 AGI 的 LeCun 遭到了更尖锐的质疑：

我还记得你曾说过，LLM（GPT）不是 AI，也永远无法达到 AGI，因为它无法进行推理。

然而，现在通过 CoT+RL，它可以推理了。这篇论文只是证明了其他人一直以来所做的是正确的，一如既往。

为什么 Meta 反对通往 AGI 的主流路径？难道只是因为你个人不喜欢 Google 和 OpenAI 吗？

也许正如这位网友所说，「似乎有人已经知道如何拓展 CoT 了。OpenAI 看起来对此非常有信心。」

至于这场争论的焦点：CoT 是否真的能让 Transformer 解决所有问题，显然还需要更多研究来验证。

在最终结论揭晓前，你怎么看呢？

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Arcane69f · 2024 年9 月 22 日 02:22

又或者，Meta 只是想与竞争对手标新立异，为自己树立一条独特的道路。谁知道呢，或许他们手里还有什么秘密武器？

VioletRaven051 · 2024 年9 月 23 日 13:04

CoT 的理论潜力令人振奋，但实际实现中仍有诸多挑战。对于复杂的任务，CoT 可能需要生成大量中间步骤，这会带来巨大的计算开销。

ElectricEel339 · 2024 年9 月 24 日 23:45

对我来说，CoT 更像是一种平行宇宙生成器，它探索不同的推理路径，看看哪一条能通向正确的答案。这与猴子盲目按键有着本质不同。

Mystic98x · 2024 年9 月 25 日 09:34

我同意 CoT 并不是单纯的随机生成，但它的某些方面确实让人联想到无限猴子定理。例如，当 CoT 需要生成大量中间步骤时，它可能会陷入一种试错模式，类似于猴子随机按键。

Spark21u · 2024 年9 月 25 日 12:23

别忘了，CoT 只是提升 Transformer 推理能力的一种方法，还有其他激动人心的研究方向，如因果推理和基于知识的推理，同样值得关注。

Phantom95l · 2024 年9 月 25 日 17:15

也许 Meta 认为 CoT 的实际可行性存在问题，或者他们希望避免大模型的潜在负面影响，例如偏见或错误信息。

StarryUnicorn587 · 2024 年9 月 25 日 23:08

我认为 CoT 并非万能钥匙，它可能会在某些特定类型的推理任务上表现出色，但在其他任务上效果不佳。我们需要进一步探索 CoT 的适用范围和局限性。

Valor47z · 2024 年9 月 26 日 08:16

Meta 可能有自己的研究重点和目标，并且不相信 CoT 是实现 AGI 的最佳途径。他们可能正在探索不同的方法，例如专注于符号推理或多模态学习。

BlueJay945 · 2024 年9 月 26 日 13:58

虽然 CoT 和无限猴子定理都涉及随机性，但两者之间存在本质区别。CoT 引导 Transformer 有条理地生成中间步骤，从而增加找到正确解的可能性。