Claude “打假” 苹果论文《思考的错觉》：模型并非不能推理，而是评估方式有问题

almosthuman2014 · 2025 年6 月 14 日 12:12

Anthropic的Claude与人类合著论文反驳苹果《思考的错觉》，指出其评估方法存在缺陷，未能准确衡量LLM的推理能力。

原文标题：苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650973808&idx=3&sn=dfc87efef90ea80939f318e19f153992&

冷月清谈：

针对苹果公司发表的关于大型语言模型（LLM）推理能力的一篇论文，Anthropic 的 Claude 与一位人类作者联合发表了一篇评论性论文，题为《思考的错觉的错觉》。该评论指出苹果论文存在三大关键缺陷：一是汉诺塔实验超出了模型输出 token 的限制，模型本身已经识别到这一限制；二是苹果论文的自动评估框架未能区分推理失败和实际约束；三是“过河”实验中包含了数学上不可能实现的实例。评论认为，苹果论文的结果并不能证明 LLM 存在根本的推理局限性，而是反映了评估方法的问题，并建议未来的研究应该改进评估方法，更准确地衡量模型的推理能力，而非仅仅是文本生成能力。

怜星夜思：

1、苹果的论文和 Claude 的反驳都使用了实验来评估 LLM 的推理能力。你认为实验是评估 LLM 推理能力的最佳方式吗？有没有其他更有效或更全面的评估方法？
2、文章提到，苹果论文的“过河”实验中存在无解的情况，模型因此被判为失败。你认为在评估 AI 的能力时，应该如何处理这种“不可能完成的任务”？是应该避免，还是应该保留并观察模型的反应？
3、Claude 和人类合著论文，AI 担任第一作者，这种合作模式你觉得如何？未来 AI 在科研领域会扮演什么样的角色？

原文内容

机器之心报道

编辑：Panda

几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。

论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能发展出可泛化的解决问题能力 —— 在不同环境中，当达到一定复杂度时，准确度最终会崩溃至零。」

不过，这篇论文的研究方法也受到了不少质疑，比如我们的一位读者就认为「给数学题题干加无关内容，发现大模型更容易答错，而质疑大模型不会推理」的做法并不十分合理。

著名 LLM 唱衰者 Gary Marcus 也发文指出这项研究的缺点，并再次批评 LLM。总结起来，他的意见有 7 点：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

人类在处理复杂问题和记忆需求方面存在困难。
大型推理模型 (LRM) 不可能解决这个问题，因为输出需要太多的输出 token。
这篇论文是由一名实习生撰写的。
更大的模型可能表现更好。
这些系统可以用代码解决这些难题。
这篇论文只有四个例子，其中至少有一个（汉诺塔）并不完美。
这篇论文并不新鲜；我们已经知道这些模型的泛化能力很差。

更多详情可参阅报道《》

而现在，我们迎来了对这项研究更强有力的质疑：《思考的错觉的错觉》。是的，你没有看错，这就是这篇来自 Anthropic 和 Open Philanthropy 的评论性论文的标题！其中指出了那篇苹果论文的 3 个关键缺陷：

汉诺塔实验在报告的失败点系统性地超出了模型输出 token 的限制，而模型在其输出中明确承认了这些限制；
苹果论文作者的自动评估框架未能区分推理失败和实际约束，导致对模型能力分类错误；
最令人担忧的是，由于船容量不足，当 N ≥ 6 时，他们的「过河（River Crossing）」基准测试包含在数学上不可能出现的实例，但模型却因未能解答这些本就无法解决的问题而被评为失败。

论文很短，加上参考文献也只有短短 4 页内容。而更有趣的是，来自 Anthropic 的作者名为 C. Opus，实际上就是 Claude Opus。另需指出，另一位作者 Alex Lawsen 是一位「AI 治理与政策高级项目专员」，曾经也担任过英国 Sixth Form College（第六学级学院）的数学和物理学教师。（第六学级学院是英国教育体系中的一种专门为 16 至 19 岁学生开设的学院，是英国中学教育（Secondary Education）之后、大学教育（Higher Education）之前的一个关键阶段。）

https://x.com/lxrjl/status/1932499153596149875

所以，这其实是一篇 AI 与人类合著的论文，并且 AI 还是第一作者。

论文标题：The Illusion of the Illusion of Thinking
论文地址：https://arxiv.org/pdf/2506.09250v1

下面我们就来看看这篇评论性论文的具体内容。

1 引言

Shojaee et al. (2025) 声称通过对规划难题的系统评估，发现了大型推理模型（LRM）的根本局限性。他们的核心发现对 AI 推理研究具有重要意义，即：在超过某些复杂度阈值后，模型准确度会「崩溃」为零。

然而，我们的分析表明，这些明显的失败源于实验设计的选择，而非模型固有的局限性。

2 模型能识别输出约束

苹果的原始研究中忽略了一个关键观察结果：模型在接近输出极限时能够主动识别。𝕏 用户 @scaling01 最近进行了一项复现研究，表明在进行汉诺塔实验时，模型会显式地陈述「这种模式仍在继续，但为了避免内容过长，我将在此停止」。这表明模型其实已经理解了该问题的求解模式，但会由于实际限制而选择截断输出。

https://x.com/scaling01/status/1931817022926839909

这种将模型行为错误地描述为「推理崩溃」的行为反映了自动化评估系统的一个更广泛的问题，即未能考虑模型的感知和决策。当评估框架无法区分「无法解决」和「选择不进行详尽列举」时，它们可能会错误评估模型的基本能力。

2.1 僵化评估的后果

这种评估限制可能导致其他分析错误。考虑以下统计论证：如果我们逐个字符地对汉诺塔的解进行评分，而不允许纠错，那么完美执行的概率将变为：

其中 p 表示每个 token 的准确度，T 表示 token 总数。如果 T = 10,000 个 token，则有：

p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%

实际上，已有文献《Faith and fate: Limits of transformers on compositionality》提出，这类「统计必然性」是 LLM scaling 的一个基本限制，但它假设模型无法识别并适应自身的局限性，而这一假设与上述证据相悖。

3 不可能解答的难题

在「过河」实验中，评估问题大幅复杂化。Shojaee et al. 测试了有 N ≥ 6 个参与者 / 主体的实例，但使用的船的容量只有 b = 3。然而，研究界已经公认：传教士 - 食人族谜题（及其变体）在 N > 5 且 b = 3 时无解，详见论文《River Crossing Problems: Algebraic Approach》，arXiv:1802.09369。

由于苹果研究者自动将这些不可能的实例计为失败，就无意中暴露了纯程序化评估的弊端。模型获得零分并非因为推理失败，而是因为正确识别了不可解的问题 —— 这相当于惩罚 SAT 求解器，因为该程序对不可满足的公式返回了「不可满足」。

4 物理 token 限制导致明显崩溃

回到汉诺塔分析，我们可以量化问题规模与 token 需求之间的关系。

汉诺塔游戏规则：将所有圆盘从起始柱按大小顺序完整移动到目标柱，且每次只能移动一个圆盘，且大圆盘不能叠在小圆盘上。

苹果研究者的评估格式要求在每一步输出完整的移动序列，从而导致 token 数量呈二次方增长。如果序列中每一步大约需要 5 个 token：

考虑到分配的 token 预算（Claude-3.7-Sonnet 和 DeepSeek-R1 为 64,000 个，o3-mini 为 100,000 个），则最大可解规模为：

原始论文报告的超出这些规模的所谓「崩溃」与这些约束一致。

5 使用另一种表示来恢复性能

为了检验模型失败能否反映推理限制或格式限制，这位 AI 作者与 Alex Lawsen 使用了不同的表示方法，初步测试了相同的模型在 N = 15 的汉诺塔上的表现：

提示词：求解有 15 个圆盘的汉诺塔问题。输出一个被调用时会 print 答案的 Lua 函数。

结果：所有被测模型（Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5）的准确度都非常高，且使用的 token 数都不到 5000。

下面展示了 𝕏 用户 @janekm 分享的一次测试结果

https://x.com/janekm/status/1933481060416799047

6 重新评估原始论文的复杂性主张

苹果的作者使用了「组合深度（compositional depth）」（最小步数）作为复杂度指标，但这其实将机械执行与问题求解难度混为一谈了：

问题的复杂度不仅仅由解答的长度决定

汉诺塔虽然需要指数级数量的步数，但每步的决策过程都很简单，为 O (1)。过河问题步数少得多，但需要满足复杂的约束条件并进行搜索。这解释了为什么模型可能有能力完成 100 步以上的汉诺塔，却无法解决 5 步的过河问题。

7 总结

Shojaee et al. 的结果只能表明，模型输出的 token 数量无法超过其上下文限制，程序化评估可能会同时遗漏模型能力极限和难题的不可解性，并且解答长度无法准确预测问题的难度。这些都是宝贵的工程见解，但它们并不支持关于基本推理局限性的论断。

未来的研究应该：

设计能够区分推理能力和输出约束的评估方法；
在评估模型性能之前验证难题的可解性；
使用能够反映计算难度而非仅仅反映解答长度的复杂度指标；
考虑多种解答表示，以区分算法理解和执行。

问题不在于大型推理模型（LRM）能否推理，而在于我们的评估方法能否区分推理和文本生成。

网友怎么看？

同样，这篇论文也吸引了不少眼球，并且基本都是好评。

https://x.com/janekm/status/1933481060416799047

有读者打听了这两位作者的合作模式 —— 其实就是聊天。

https://x.com/lxrjl/status/1932557168278188517

也许，我们可以将这篇论文称为氛围论文（vibe paper），正如 CMU PhD Behnam Mohammadi 调侃的那样 :')

https://x.com/OrganicGPT/status/1932502854960366003

不过，反对意见当然也还是存在的。

对此，你怎么看？

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Stellar82k · 2025 年6 月 14 日 19:02

AI担任第一作者，这本身就是一个信号，预示着科研模式的变革。我觉得未来AI在科研领域会扮演以下几种角色：

1. 加速器： 加速科研进程，提高科研效率。
2. 赋能者： 赋能科研人员，让他们能够专注于更具创造性的工作。
3. 合作者： 与科研人员共同完成科研任务。

但同时，我们也需要警惕AI可能带来的风险，比如数据安全、算法透明度等。我们需要建立完善的伦理规范，确保AI在科研领域得到合理的应用。