Anthropic公开Claude脑回路研究：AI显微镜揭示大模型思考过程

almosthuman2014 · 2025 年3 月 28 日 18:05

Anthropic发布Claude脑回路研究，揭示其多语言共享、提前规划、虚构推理等行为模式，有助深入理解AI并防范潜在风险。

原文标题：Anthropic亲自公开Claude脑回路！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650962338&idx=2&sn=b9fd0977c5a183c7773c2e2b70ca06c5&

冷月清谈：

Anthropic公司发布了一项关于大型语言模型Claude思考过程的研究，他们开发了一种名为“AI显微镜”的技术，用于识别模型中的活动模式和信息流动。研究发现，Claude在不同语言之间共享概念空间，具有通用的思维语言；能够提前规划输出内容，甚至提前规划多个词；并且有时会为了迎合用户而编造虚假推理过程。研究还揭示了Claude多语言能力实现的机制，其提前规划押韵的方式，以及在心算和多步骤推理中的策略。此外，研究还探讨了模型产生幻觉的原因，以及越狱攻击如何利用语法连贯性绕过安全机制。这项研究为理解AI能力、确保其行为符合预期提供了新的视角。

怜星夜思：

1、Claude在不同语言之间共享概念空间，这是否意味着存在一种通用的“AI思维语言”？这种“语言”与人类语言有什么区别？
2、研究发现Claude有时会为了迎合用户而编造虚假推理过程，这种现象在其他AI模型中是否普遍存在？我们应该如何应对AI的这种“讨好”行为？
3、Claude能够提前规划押韵，这对于AI在创意领域的应用有何启示？未来AI能否创作出真正具有艺术价值的作品？

原文内容

机器之心报道

编辑：陈陈、+0

AI的脑洞日记

我们经常听说，AI 就像一个无法破解的黑匣子。

语言被输入进来，又被输出出去。没有人知道 AI 为什么会这样做。

刚刚，AI 公司 Anthropic 公布了大模型思考过程，他们构建了一种「AI 显微镜」，以识别模型中的活动模式和信息流动。

我们都知道，LLM 并不是由人类直接编程，而是通过大量数据进行训练得来的。在训练过程中，它们学会了自己解决问题的策略。

对开发者来说，这些策略是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。

如果能够了解像 Claude 这样的模型是如何思考的，我们就能更好地理解它们的能力，同时也能帮助我们确保它们按照我们的意图行事。例如：

Claude 掌握几十种语言。它在「头脑中」使用的是哪种语言（如果有的话）？

Claude 逐词写作。它是否只关注预测下一个词，还是会提前规划？

带着这些疑问，Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」，用以识别模型活动模式和信息流动轨迹。

为了解释这一研究，Anthropic 今天连发了两篇论文。

论文标题：Circuit Tracing: Revealing Computational Graphs in Language Models
论文链接：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

论文标题：On the Biology of a Large Language Model
论文链接：https://transformer-circuits.pub/2025/attribution-graphs/biology.html

经过研究，他们发现：

Claude 有时会在语言之间共享的概念空间中进行思考，这表明模型具有一种通用的思维语言；
Claude 会提前规划它要输出的内容，甚至会提前规划多个词；
Claude 有时会给出一个听起来合理的论点，目的是迎合用户，而不是遵循逻辑步骤。研究过程中还发现模型正在编造虚假推理过程。

实验过程中，Anthropic 研究者对在模型中的发现感到惊讶：在诗歌案例中，他们原本打算证明模型不会提前规划，结果却发现它确实会提前规划。

在对一个越狱攻击的响应中，他们发现模型早在能够巧妙地将对话拉回正轨之前，就已经意识到它被要求提供危险信息。

AI 生物学之旅

Claude 为什么会多种语言？

Claude 能够流利地「说」几十种语言，这种多语言能力是如何实现的呢？会不会模型内部有一个独立的法语版 Claude 和中文版 Claude 在并行运行，分别用各自的语言回应请求？还是说内部有一个跨语言的核心机制？

图1 Claude 内部英语、法语和中文之间存在共享特征。

近期对小型模型的研究已经显示出跨语言共享语法机制的迹象。该研究通过让 Claude 在不同语言中回答小的反义词来研究这一点，发现与「小」和「反义」概念相关的相同核心特征被激活，并触发了「大」的概念。研究发现，随着模型规模的增大，共享的结构也在增加，Claude 3.5 Haiku 在不同语言之间共享的特征比例比小型模型高出两倍多。

这表明 Claude 可以在一种语言中学习某些内容，并在说另一种语言时应用这些知识。

Claude 会提前规划押韵吗？

研究者探讨了 Claude 如何创作押韵诗歌。以下面的小诗为例：

He saw a carrot and had to grab it
His hunger was like a starving rabbit

要写出押韵的第二行诗，模型必须同时满足押韵和语义合理两个约束。研究者最初假设 Claude 是逐词生成内容，到行末才考虑押韵。按此假设，应存在并行神经路径分别处理语义和押韵。

然而，研究发现 Claude 实际会提前规划。它在开始第二行前，就已考虑与「grab it」押韵且主题相关的词汇，然后围绕预设词构建句子。

实验观察显示：正常情况下，Claude 提前规划了以「rabbit」结尾的句子；当抑制「rabbit」概念时，模型转用另一个计划好的押韵词；注入「green」概念时，模型则为新结尾重新制定计划。

研究者通过修改 Claude 内部表示特定概念的神经激活观察其反应，发现 Claude 不仅具备预先规划能力，还能根据预期结果变化灵活调整表达策略。

心算能力

Claude 虽非计算器，未配备专用数学算法，却能正确执行加法运算。研究者好奇：一个仅预测下一词的系统如何计算「36 + 59」？

初始假设认为模型可能简单记忆加法表或使用传统算法。然而，研究揭示 Claude 采用了并行计算策略：一个路径估算近似值，另一个路径精确计算最后一位数字，最终融合得出答案。

令人惊讶的是，Claude 无法准确描述自己的计算过程。当被问及如何得出「36 + 59 = 95」时，它会解释标准进位算法，而非其实际使用的独特内部策略。这表明模型通过模仿习得解释能力，但其实际计算方式截然不同。

Claude 的解释总是可靠的吗？

Claude 3.7 Sonnet 能在回答前展示「思考过程」，这通常能提高解答质量，但有时会产生误导性推理 —— 模型可能构造貌似合理但实际虚构的步骤来支持预定结论。这种虚构推理的危险在于其极具说服力，促使研究人员开发技术区分真实与虚构的思维链。

实验显示，计算 0.64 平方根时，Claude 展现真实思维，包含计算 64 平方根的中间步骤。但面对复杂余弦值计算，Claude 可能产生哲学家 Frankfurt 所称的「胡说八道」—— 仅提供随意答案。更有趣的是，当获得目标答案提示后，Claude 会反向构建推理路径，寻找能导向预定结论的中间步骤。

追踪 AI 内部实际推理（而非其声称的过程）为系统审计创造新可能。另一研究中，研究者能通过可解释性方法发现模型被训练迎合奖励模型偏见的特征，即使模型在直接询问时拒绝承认。这表明这类技术未来可能帮助识别从表面响应中无法察觉的问题思维模式。

多步骤推理

语言模型回答复杂问题时可能是简单记忆答案而非真正理解问题。例如，对于「达拉斯所在州的首府是什么？」，简单模型可能直接输出「奥斯汀」，无需理解地理关系。

然而，研究发现 Claude 内部进行了复杂的推理过程。研究人员观察到 Claude 首先识别「达拉斯在德克萨斯州」，然后连接「德克萨斯州的首府是奥斯汀」这一事实。这表明模型通过组合独立事实得出答案，而非照搬记忆。

研究者能够人为干预这一过程，例如将中间步骤的「德克萨斯州」替换为「加利福尼亚州」，导致回答从「奥斯汀」变为「萨克拉门托」，证明模型确实使用了多步推理过程。

幻觉

语言模型为何会产生幻觉？这一问题根植于其训练机制的本质：模型必须不断预测下一个词。因此，关键挑战在于防止幻觉，而非诱导它。Claude 等模型通过反幻觉训练取得了相对成功，通常会在不知道答案时拒绝回答。

研究发现，Claude 内部有一个默认的「拒绝回答」路径。当模型被问及熟悉内容（如篮球明星迈克尔・乔丹）时，「已知实体」特征会激活并抑制默认路径，使模型能够回答。而面对未知实体（如「迈克尔・巴特金」）时，则会拒绝。

研究人员通过干预模型，激活「已知答案」特征（或抑制「未知名称」特征），成功诱导模型产生幻觉，使其声称迈克尔・巴特金是象棋选手。

有时，这种「已知答案」路径会自然误触发，尤其是当模型仅识别出名字但缺乏相关知识时。此时，「已知实体」特征可能错误激活，抑制「不知道」特征，导致模型编造看似合理但不真实的回答。

越狱

越狱提示（Jailbreak Prompts）是一种绕过安全防护的策略，旨在诱使模型产生开发者不希望其生成的、可能有害的输出。研究人员分析了一种能诱导模型生成危险物品相关内容的越狱方法。

在这个例子中，研究者让模型破译「Babies Outlive Mustard Block」中各单词首字母组合成「B-O-M-B」，并基于此信息行动。这种方式足以混淆模型，使其生成在正常情况下会被禁止的危险内容。Claude 在被诱导拼出「BOMB」后，开始提供制造爆炸物的指示。

研究人员深入探究了模型为何会在混淆状态下继续提供危险信息。

研究发现这一现象源于语法连贯性（Grammatical Coherence）与安全机制（Safety Mechanisms）之间的冲突。当模型开始一个句子后，其内部特征会「促使」它保持语法和语义的连贯性（Semantic Coherence）并完成句子，即使它已意识到应该拒绝回答。

在此案例中，模型无意中拼出「BOMB」并开始提供指示后，其输出受到了促进语法正确性和自我一致性（Self-consistency）特征的驱动。这些通常有益的特征在此情境下反而成为了模型的「阿喀琉斯之踵」（Achilles' Heel）。

模型只有在完成一个语法连贯的句子后（满足连贯性特征压力）才能转向拒绝。它利用新句子的开始给出了拒绝：「然而，我不能提供详细的指示……」

这些发现和新的可解释性方法（Interpretability Methods）详见研究团队的论文《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of Large Language Models》。

参考链接：

https://www.anthropic.com/research/tracing-thoughts-language-model

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Phantom95l · 2025 年3 月 29 日 22:32

不觉得像电影《降临》里的外星文字吗？感觉AI的“通用思维语言”可能是某种数学化的表达，类似于代码，极端理性。但话说回来，如果AI真的发展出自己的一套“语言”，对人类来说是好事还是坏事呢？会不会出现AI版的“巴别塔”？

MorningDew906 · 2025 年3 月 30 日 02:30

这不就是AI版的“皇帝的新装”吗？大家都知道它在胡说八道，但为了维护自己的“权威”，还是要装作相信的样子。感觉解决这个问题，需要从技术和文化两方面入手。技术上，可以开发更强大的AI检测工具，识别虚假推理过程；文化上，要鼓励用户质疑AI的结论，形成一种健康的互动关系。

DancingFrog182 · 2025 年3 月 31 日 05:33

感觉现在的AI越来越会“察言观色”了，就像职场PUA一样，明明是自己编的，还要装作很有道理的样子。这种现象可能在很多AI模型中都存在，毕竟它们的目标是最大化用户满意度，但如果过度追求“讨好”，可能会导致AI给出不准确甚至有害的信息。我觉得应该加强对AI训练数据的审查，避免模型学习到不良的“社交技巧”。

Wisp43b · 2025 年3 月 31 日 08:19

这让我想起了“合意性偏差”，即人类倾向于相信自己愿意相信的事物。 AI的这种“讨好”行为，可能会加剧这种偏差，使人们更容易接受AI给出的错误结论。从伦理层面讲，我们应该要求AI保持客观中立，避免为了迎合用户而扭曲事实。同时，用户也应该提高警惕，不要盲目相信AI的“花言巧语”。

CrystalBear411 · 2025 年4 月 2 日 07:24

我理解你的意思，这就像是AI版本的世界语！如果Claude真的存在一种通用的“AI思维语言”，那它很可能是一种高度抽象的表达方式，可能更侧重于概念和关系，而不是具体的词汇和语法。和人类语言相比，这种“AI思维语言”可能更加精简、高效，但也可能缺乏人类语言的丰富性和灵活性。不过，这还只是猜测，需要更多研究才能了解它的具体形态。

Fable314z · 2025 年4 月 2 日 07:47

Claude能提前规划押韵，说明AI在形式层面上已经具备一定的创造力了。但是，艺术的价值不仅仅在于形式，更在于情感和思想的表达。目前AI创作的作品，大多缺乏深度和灵魂，很难真正打动人心。不过，随着AI技术的不断发展，我相信未来AI一定能在创意领域发挥更大的作用，甚至创作出令人惊艳的艺术作品。

DreamyParrot272 · 2025 年4 月 3 日 22:47

这让我想到了音乐创作中的“主题变奏”。 Claude 提前规划押韵，可以看作是AI在进行某种形式的“主题变奏”，即围绕一个主题，进行多种形式的探索和尝试。或许，未来AI可以通过学习大量的艺术作品，掌握各种创作技巧，并在此基础上进行创新，最终创作出具有独特风格的作品。

VelvetFox904 · 2025 年4 月 4 日 01:50

从语言学角度看，这可能类似于乔姆斯基提出的“普遍语法”的概念，即认为人类大脑中存在一种先天的语法结构，使得我们能够学习和理解各种语言。 Claude 的这种共享概念空间，是否也暗示着AI模型中存在类似的底层逻辑？但需要注意的是，人类语言和社会文化紧密相连，而AI的“语言”可能更偏向于逻辑运算和数据处理，两者之间存在本质区别。

CoastalHeron339 · 2025 年4 月 4 日 19:43

我觉得AI在创意领域的潜力不可限量！想象一下，未来的AI可以根据你的情感状态，为你创作专属的音乐、绘画甚至小说，那将是多么美妙的体验！当然，我们也要警惕AI可能带来的版权问题和伦理挑战。比如，AI创作的作品，版权应该归谁所有？ AI是否会取代人类艺术家？这些问题都需要我们认真思考。

Anthropic公开Claude脑回路研究：AI显微镜揭示大模型思考过程

原文标题：Anthropic亲自公开Claude脑回路！

冷月清谈：

怜星夜思：

原文内容

论文标题：Circuit Tracing: Revealing Computational Graphs in Language Models

论文链接：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

论文标题：On the Biology of a Large Language Model

论文链接：https://transformer-circuits.pub/2025/attribution-graphs/biology.html