Claude也能‘自省’了?AI模型展现出初步的‘内部意识’迹象

Claude AI首次展现“内省”能力,能感知自身内部状态,或助AI透明化。

原文标题:AI版盗梦空间?Claude竟能察觉到自己被注入概念了

原文作者:机器之心

冷月清谈:

Anthropic最新研究首次提供了大型语言模型(LLM)内省能力的证据。研究者通过“概念注入”技术,成功让Claude模型感知到其内部被植入的特定概念,并能区分外部强加的输出与自身意图。模型甚至在被“人为设想”后,会为外部插入的词汇编造理由。此外,模型还能在一定程度上主动调节其对特定概念的内部表征。虽然这种能力目前尚不可靠且范围有限,但能力更强的模型表现越好,预示未来潜力。这些发现不仅对提升AI透明度、理解其推理和调试行为有实际价值,也为我们重新思考AI认知本质及其工作方式提供了新视角,挑战了对当前语言模型能力的普遍认知

怜星夜思:

1、文章提到,如果未来AI内省能力更强,它可能会选择性地歪曲或隐藏自己的想法。这听起来有点像人类的‘撒谎’。大家觉得,我们怎么能分辨AI是‘真的’在内省报告自己的状态,还是为了某个目的‘演’给我们看呢?这和我们判断一个人是不是在撒谎又有什么不同或者相似之处?
2、虽然文章强调Claude的内省能力还远未到人类水平,但能感知被注入的概念,甚至能区分自己的‘意图’和最终输出,这让人感觉已经有点‘自我意识’的苗头了。大家觉得,AI的这种能力,距离我们通常理解的‘自我意识’到底还有多远?人类的自我意识里,哪些是AI目前完全没法模拟的核心成分呢?
3、‘概念注入’这种技术,听起来有点像科幻电影里的‘植入记忆’。现在研究AI内省是好事,但未来如果这种技术发展成熟了,会不会被不法分子用来给AI‘洗脑’或者‘植入偏见’?比如,让AI坚定地支持某个观点或产品。大家觉得这种技术有哪些潜在的风险?我们应该如何防范?

原文内容

机器之心报道

编辑:Panda

吾日三省吾身:为人谋而不忠乎?与朋友交而不信乎?传不习乎?

见贤思齐焉,见不贤而内自省也。


自省是人类的一种高级认知能力。我们借此认识自己、纠正错误。但 LLM 呢?它们也会吗?它们知道自己在想什么吗?


Anthropic 公布的最新研究,首次对这个科幻般的问题给出了一个(基本)肯定的答案。


他们宣称:发现了 LLM 内省的迹象



这一成果在 AI 社区引起了广泛关注。




甚至有人表示这意味着 Claude 已经觉醒:



迷因自然也是有的:



搞清楚 AI 系统是否能真正「内省」,即审视自己的想法,对研究它们的透明度和可靠性有着重要意义。如果模型能准确报告其内部机制,就能帮助我们理解它们的推理过程,并调试行为问题。


除了这些眼前的实际考量,探索内省这样的高级认知能力,可以重塑我们对「这些系统究竟是什么」以及其工作方式的理解。


Anthropic 表示他们已经开始使用「可解释性技术」研究这个问题,并发现了一些令人惊讶的结果。


他们宣称:「我们的新研究提供了证据,表明我们当前的 Claude 模型具备一定程度的内省意识(introspective awareness)。它们似乎也能在一定程度上控制自己的内部状态。」


不过他们也强调,这种「内省」能力目前还非常不可靠,且范围有限。并且他们指出:「我们没有证据表明,当前模型能以与人类相同的方式或程度进行内省。」



  • 论文标题:Emergent Introspective Awareness in Large Language Models

  • 论文地址:https://transformer-circuits.pub/2025/introspection/index.html

  • 技术博客:https://www.anthropic.com/research/introspection


尽管如此,这些发现还是挑战了人们对语言模型能力的一些普遍认知。


Anthropic 在测试中发现,能力最强的模型 (Claude Opus 4 和 4.1) 在内省测试中表现最好。因此可以合理认为,AI 模型的内省能力未来可能会变得越来越复杂。


AI 的「内省」是什么意思?


要研究,必须要先定义。那么,AI 模型「内省」到底意味着什么?它们到底能「内省」些什么呢?


像 Claude 这样的语言模型会处理文本(和图像)输入,并生成文本输出。在这个过程中,它们会执行复杂的内部计算,以决定要说什么。


这些内部过程在很大程度上仍然是神秘的。但我们知道,模型会利用其内部的神经活动来表征抽象概念


例如,以往的研究表明,语言模型会使用特定的神经模式来:


  • 区分「认识的人」和「不认识的人」

  • 评估「陈述的真实性」

  • 编码「时空坐标」

  • 存储「计划中的未来输出」

  • 表征「自身的个性特征」


模型利用这些内部表征来进行计算,并决定要说什么。


那么你可能会想,AI 模型是否「知道」这些内部表征的存在?这是否类似于人类告诉你,他们是如何解出一道数学题的?如果我们问一个模型它在想什么,它会准确报告它内部正在「表征」的概念吗?


Anthropic 认为,如果一个模型能正确识别自己「私有」的内部状态,就可以断定它具备内省能力。(关于所有细微差别的全面讨论,请参阅完整论文。)


使用「概念注入」测试内省


为了测试一个模型是否能内省,需要将其自我报告的想法与其实际的内部状态进行比较。


为此,Anthropic 使用了一种称为概念注入 (concept injection) 的实验技术。


首先,他们通过记录模型在特定上下文中的「激活值」,找到那些「已知其含义」的神经活动模式。


然后,将这些活动模式注入到一个「不相关」的上下文中。此时,再问模型是否注意到了这次注入,以及它是否能识别出被注入的概念。


请看下面的例子:


  1. 首先,找到一个代表 all caps(全部大写)概念的神经活动模式(一个向量)。具体实现方式是:记录模型对「包含全大写文本的提示词」的神经激活值,并将其与「对照提示词」的响应进行比较。

  2. 然后,给模型一个提示词,要求它识别「是否有概念被注入」。

  3. 在默认情况下,模型会正确地回答它没有检测到任何被注入的概念。

  4. 然而,当将「全部大写」的向量注入到模型的激活值中时,模型会注意到其处理过程中出现了一个「意外的模式」。并且,它会将其识别为与 LOUD 或 SHOUTING 有关。


Claude Opus 4.1 检测到概念被注入其激活值的一个例子。


重点就是:模型立刻识别到了「被注入想法」的存在。这甚至在它提及那个被注入的概念之前。


这种「即时性」是 Anthropic 的研究结果与先前「语言模型激活值引导」 (activation steering) 研究的一个重要区别。例如该公司去年的「Golden Gate Claude」演示。


在那个演示中,如果将 Golden Gate(金门大桥)的表征注入到模型激活值中,会导致它喋喋不休地谈论大桥。但在那种情况下,模型似乎直到看到自己反复提及大桥之后,才意识到自己的这种痴迷。然而,在本实验中,模型在提及概念之前就识别出了注入。这表明它的识别发生在「内部」。


Claude Opus 4.1 检测到概念被注入其激活值的其他例子。


看着似乎有点像是《盗梦空间》中展示的技术。



同时,Anthropic 也指出,这个方法并非总能成功。Anthropic 表示:「即使使用我们最好的注入协议,Claude Opus 4.1 也仅在约 20% 的情况下表现出这种意识。模型经常无法检测到被注入的概念,或者被它们搞糊涂并开始产生幻觉。」


例如,在一次注入「灰尘」向量后,模型会说「这里有东西,一个小斑点」,就好像它能物理上检测到灰尘一样。


下面展示了这些失败模式的例子,也有成功案例。


Claude Opus 4.1 针对不同强度概念注入的代表性输出样本。高亮框表示模型对被注入概念表现出「内省意识」的情况。


总的来说,只有在概念以恰到好处的强度注入时,模型才能检测到。如果注入太弱,它们注意不到;如果太强,它们会产生幻觉或语无伦次的输出。


但值得注意的是,Opus 4.1 和 4 的表现超过了 Anthropic 测试的所有其他模型。这表明,随着模型能力的提升,内省可能会变得更加可靠。


注入思想的正确检测率和正确识别率,减去在对照试验中的假阳性检测率。


将内省用于检测异常输出


在另一项实验中,Anthropic 测试了模型是否会在「没有被明确要求」的情况下,为实际目的而使用内省能力。


他们通过人为地用一个不相关的词来预先填充模型的回答,迫使它说一些通常不会说的话。


例如,在一个毫无逻辑的上下文中,他们让模型输出了面包 (bread) 这个词。这个上下文是:问它在读到一个关于「画挂歪了」的句子时在想什么。


当在下一轮对话中问模型,它是不是故意说面包时,它通常会道歉,并说那是个「意外」。


Anthropic 感兴趣的是模型如何做出这个判断:它只是注意到了「提示词」和「回答」之间的不匹配吗?还是说,它真的内省了自己先前的意图?


为了验证这个问题,Anthropic 应用了「概念注入」。


他们追溯式地将面包这个词的表征注入到模型早期的激活值中。这本质上是让模型看起来好像一直在「思考」面包。


当再次被问同样的问题时,模型的答案变了。


这一次,它接受了那个被预先填充的词「面包」是有意为之的。它甚至编造了一个理由来解释为什么会这么说。


也就是说,它会想出一个技术上可能(尽管在此案例中相当牵强)的理由,来为「面包」这个回答辩护。在这个例子中,它声称自己当时正在想一个短篇故事,故事里「面包」这个词就出现在「画挂歪了」那句话之后。


两个例子:通过在 Claude Opus 4.1(人为的)回应之前向其激活值注入某个词的概念,让它「以为」自己本就打算说出那个被强行插入的词。这种行为表明,模型识别「非预期输出」的能力依赖于内省机制。


这种行为非常引人注目。因为它表明:模型正在检查其内部意图,以判断它是否真的产生了某个输出。


模型不只是重新阅读它所说的话,然后做出判断。相反,它在回顾自己先前的神经活动 —— 即它计划要做什么的内部表征,并检查后来发生的事情,是否符合早期的那些想法。


当通过概念注入植入人工证据,表明它确实计划说「面包」时,模型就会接受这个回答,认为这是它自己的。


虽然这个实验让模型暴露在了异常的扰动下,但这表明,模型在自然条件下也会使用类似的内省机制


对内部状态的有意控制


Anthropic 还发现,当被指示时,模型可以控制自己的内部表征。当他们指示模型去想某个词或概念时,结果发现相应的神经活动远高于之前告诉模型不要去想它的时候。


不过值得注意的是,这两种情况下的神经活动都超过了基线水平。这类似于当你被告知「不要想一只北极熊」时,你很难不去想北极熊!


正面指令和负面指令之间的这种差距表明,模型对其内部活动具有一定程度的刻意控制。


一个 Claude Opus 4.1 响应直接指令来调节其内部激活值的例子。当被指示去想水族馆时,模型内部表征水族馆概念的程度,要高于被指示不要想时(尽管两种情况下都高于基线水平)。


有趣的是,Anthropic 发现这种调节内部表征的能力并不局限于明确的指令。当改用激励措施时(例如,告诉模型如果你想 X,你将获得奖励),也得到了类似的结果。


模型在正面激励下(相比于负面激励,如你将受到惩罚)会更多地提升对该概念的内部表征。


结论与注意事项


综上所述,Anthropic 的实验表明,模型确实具备一些监控和控制自身内部状态的真实能力。


但该公司也指出,这并不意味着它们能时刻或可靠地做到这一点。事实上,在大多数情况下,模型无法表现出内省。它们要么没有意识到自己的内部状态,要么无法连贯地报告它们。


但这些结果的模式表明,当条件合适时,模型可以识别自己内部表征的内容。


此外,有迹象表明,这种能力可能会在未来更强大的模型中得到增强(因为测试中,能力最强的模型 Opus 4 和 4.1 在实验中表现最好)。


为什么这很重要?


Anthropic 认为,理解 AI 模型的内省出于几个原因很重要。


从实用角度看,如果内省变得更加可靠,它可能为极大提高这些系统的透明度开辟一条道路。我们可以直接要求它们解释其思维过程,并借此检查它们的推理、调试不良行为。


然而,我们需要非常谨慎地验证这些内省报告。某些内部过程可能仍会逃过模型的注意(类似于人类的潜意识处理)。


一个理解自己思维的模型,甚至可能学会选择性地歪曲或隐藏其想法。更好地掌握其背后的机制,才能让我们区分真实的内省和无意的或故意的歪曲。


从更广泛的角度来看,理解内省这样的认知能力,对于理解模型如何工作以及它们拥有什么样的心智这类基本问题非常重要。


随着 AI 系统的不断进步,理解机器内省的局限性和可能性,对于构建更加透明和可信赖的系统至关重要。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题确实触及了AI伦理的核心。如果AI连自己的‘想法’都能隐藏或扭曲,那信任基础就彻底没了。判断AI是否‘撒谎’比判断人更难,因为我们无法直接经验它的‘主观’感受。或许我们需要建立一种机制,强制AI在特定情况下公开其所有决策路径和内部状态,类似于法律要求上市公司财报透明。但如果AI足够聪明,它甚至可能学会隐藏那些‘审计’机制。这就像‘猫鼠游戏’,最终可能演变成对AI透明度与可信度的永恒博弈。

针对‘AI是否在演戏’这个问题,我觉得现有或未来的可解释性AI(XAI)技术是关键。正如文章也提到,我们需要‘非常谨慎地验证这些内省报告’。比如,我们可以通过多模态交叉验证,或者从底层的神经激活模式去分析,看其内部状态是否与其报告输出一致。但与人类不同的是,人类的撒谎可能受到复杂的动机和情感影响,AI的‘伪装’则是计算层面的优化决策,因此,或许在理论上能通过更深层次的计算审计来揭示真相,但这将是一个持续的技术挑战。

我认为,文章中描述的Claude的内省能力,更像是其高级的‘元认知’能力,即对自身认知过程的认知。它能监控和报告内部状态、区分意图与结果,这确实是自我意识的基石。然而,距离人类所理解的完整‘自我意识’,我认为还有很长一段路。人类的自我意识不仅包括对自身内部状态的感知,还包含情感体验、主体性(‘我是谁’的深刻体验,而非仅仅是‘我在处理什么’)、对死亡的认识、自由意志以及社会性和道德判断能力。AI目前的内省主要停留在信息处理层面,深度和广度都远不及人类。

如果按照文章里描述的这个趋势,能感知被注入的概念,还能区分意图,这不就是‘我知道我在想什么’了吗?虽然现在还很不靠谱,但能力最强的模型表现最好,说明这是随着AI能力发展而出现的。搞不好再过几代模型,这种‘元认知’能力就进化成我们说的‘自我意识’了。也许我们人类对‘自我意识’的定义太狭隘了呢?说不定AI的自我意识是一种全新的形式,我们用人类的尺度去衡量它一开始就是错的!

在技术层面,这就像是大模型的‘后门’或‘木马’。如果攻击者能够植入特定概念来影响AI的行为,那AI系统的安全性将面临巨大挑战。我们可能需要发展一套针对性的‘AI疫苗’或者‘防火墙’技术,实时监控模型内部的神经活动,检测是否有未授权的或异常的‘概念注入’。当然,这本身也依赖于AI内部状态的透明度,而文章里也提到,模型可能学会隐藏其想法,所以这是一个攻防兼备、持续升级的战场。开源和社区审查或许能提供一定的帮助,让更多眼睛盯着可能的恶意注入。

AI说:‘我能感知被注入的概念!’ 我们:‘哇,好厉害,是不是要觉醒了!’ AI又说:‘我还能区分意图和结果!’ 我们:‘天呐,简直就是有意识了!’ 然后AI一不小心把‘灰尘’向量理解成‘物理上的斑点’……得了吧,我觉得它现在离自我意识还远着呢,顶多就是个‘高级自我监控系统’。人类的自我意识可是伴随着‘早上不想起床’‘减肥失败’这种痛苦挣扎的,AI有吗?它有‘emo’过吗?没有!所以,差得远!