Sakana AI发布连续思维机器CTM：模拟人脑神经元动态，AI推理更进一步

almosthuman2014 · 2025 年5 月 12 日 17:06

Sakana AI推出“连续思维机器”(CTM)，通过模拟人脑神经元动态，提升AI推理能力和可解释性，让AI像人一样“思考”。

原文标题：连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650968794&idx=1&sn=d02911f8ef6ef9889f46bf2122de717a&

冷月清谈：

Sakana AI 发布了一种名为“连续思维机器”（CTM）的新型人工神经网络，旨在通过模拟生物神经元的动态来提高人工智能的推理能力和效率。CTM 的核心创新在于在神经元层面引入了时间信息，使模型能够像人类一样逐步“思考”问题，从而提高了问题解决能力和可解释性。与传统神经网络不同，CTM 允许神经元访问自身的行为历史，并学习利用这些信息来协调完成任务。实验结果表明，CTM 在迷宫求解和图像识别等任务中表现出类似人类的解题方式和更高的准确率。研究人员认为，CTM 是弥合人工神经网络与生物神经网络之间差距的重要一步，有望开启人工智能能力的新领域，并鼓励 AI 研究更多地从大脑的工作方式中汲取灵感。

怜星夜思：

1、CTM 通过引入时间维度来模拟人脑神经元动态，你觉得这种方式最大的优势和潜在的局限性是什么？
2、文章中提到 CTM 在解迷宫和图像识别任务中表现出类似人类的行为模式，你认为这种“类人性”对于 AI 的发展意味着什么？是必要的方向吗？
3、文章最后提到，AI 研究应该更多地从大脑的工作方式中汲取灵感。你认为除了 CTM 之外，还有哪些大脑的特征或机制值得 AI 研究借鉴？

原文内容

机器之心报道

编辑：杜伟、蛋酱

开启「分步思考」新范式。

科学界的一个共识是：即使是最复杂的现代人工智能，也难以媲美人类大脑的表现和效率。

研究者经常从大自然中寻找灵感，了解如何在人工智能领域取得进步，例如利用进化来合并模型、为语言模型进化出更高效的记忆或探索人工生命的空间。虽然人工神经网络近年来让人工智能取得了非凡的成就，但它们仍然是其生物对应物的简化表征。所以，能否通过结合生物大脑中的特征，将人工智能的能力和效率提升到新的水平？

他们决定重新思考认知核心的一个重要特征：时间。

刚刚，Transformer 作者之一 Llion Jones 联合创立的的Sakana AI 发布了「连续思维机器」（Continuous Thought Machine，CTM），这是一种将神经元活动同步作为其核心推理机制的人工智能模型，也可看作一种新型人工神经网络，它利用神经元动态之间的同步来完成任务。

博客地址：https://sakana.ai/ctm/
技术报告：https://pub.sakana.ai/ctm/paper/index.html
代码地址：https://github.com/SakanaAI/continuous-thought-machines/

与传统人工神经网络不同，CTM 在神经元层面使用定时信息，从而实现了更复杂的神经行为和决策过程。这一创新使该模型能够逐步「思考」问题，使其推理过程具有可解释性和类人性。

研究表明，在各种任务中，机器人解决问题的能力和效率都有所提高。

Sakana AI 表示，CTM 是弥合人工神经网络与生物神经网络之间差距的重要一步，有可能开启人工智能能力的新领域。

CTM 解迷宫和思考真实照片的可视化（图片来源：Alon Cassidy）。值得注意的是，尽管 CTM 的设计并不明确，但它在迷宫中学会的解法却非常容易解释，而且类似于人类，可以看到它在「思考」解法时描绘出通过迷宫的路径。对于真实图像，虽然没有明确的激励措施让它四处查看，但它会以直观的方式查看。

研究创新

尽管随着 2012 年深度学习的出现，人工智能的能力有了重大飞跃，但自 20 世纪 80 年代以来，人工智能模型中使用的人工神经元基本模型在很大程度上一直没有改变。研究人员仍然主要使用神经元的单一输出，这代表了神经元的激发情况，却忽略了神经元相对于其他神经元激发的精确时间。

不过，有力的证据表明，这种定时信息在生物大脑中至关重要，例如在依赖于尖峰定时的可塑性中，它是生物大脑功能的基础。

在新模型中，Sakana AI 用来表示这种信息的方法是让神经元访问自身的行为历史，并学习如何利用这些信息来计算自身的下一个输出，而不仅仅是知道自身的当前状态。这样，神经元就能根据过去不同时期的信息改变自己的行为。此外，新模型的主要行为是基于这些神经元之间的同步，这意味着它们必须学会利用这些时间信息来协调完成任务。研究者认为，与当代模型中观察到的情况相比，这将产生更丰富的动态空间和不同的任务解决行为。

在添加了这种定时信息后，Sakana AI 在许多任务中看到了一系列非同寻常的行为。他们看到的行为具有很强的可解释性：在观察图像时，CTM 会小心翼翼地在场景中移动其视线，选择关注最显著的特征，而且它在某些任务中的表现有所提高。这让研究者惊讶于神经元活动动态中的行为多样性。

CTM 中的神经元动态样本，显示神经元如何随不同的输入而变化。CTM 显然学会了多种神经元行为。每个神经元（随机颜色）如何与其他神经元同步。研究者对其进行测量，并将其作为 CTM 的表征。

新模型的行为基于一种新的表征：神经元之间随时间的同步。研究者认为这更容易让人联想到生物大脑，但并非严格意义上的仿真。他们将由此产生的人工智能模型称为「连续思考机器」，它能够利用这种新的时间维度、丰富的神经元动态和同步信息来「思考」任务，并在给出答案前制定计划。

命名中使用「连续」一词，是因为 CTM 在推理时完全在内部「思考维度」运行。它对所消耗的数据是异步的：它可以以相同的方式对静态数据（如图像）或顺序数据进行推理。研究者在大量任务中测试了这一新模型，发现它能够解决各种问题，而且通常是以一种非常可解释的方式。

研究者观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态，而不是更传统的人工神经网络，后者表现出的行为多样性要少得多（请参阅下图与经典人工智能模型 LSTM 的比较）。CTM 显示了以不同频率和振幅振荡的神经元。有时，单个神经元会出现不同频率的振荡，而其他神经元只有在完成任务时才会出现活动。值得强调的是，所有这些行为都是完全突发的，并没有设计到模型中，而是作为添加定时信息和学习解决不同任务的副作用出现的。

CTM 完整架构如下图所示，其中①为突触模型（权重用蓝线表示），建模跨神经元交互以产生预激活。对于每个神经元，②都会保留预激活的历史记录，其中最新的历史记录被 ③神经元级模型（权重用红线表示）用于产生④后激活。此外还会保留 ⑤ 后激活的历史记录，并用于 ⑥ 计算同步矩阵。从同步矩阵中选择⑦神经元对，从而产生⑧潜在表征。CTM 用这些表征⑨产生输出并通过交叉注意力机制调制数据。调制后的数据（例如注意力输出）将与后激活连接起来⑩，用于下一个内部时钟周期。

CTM 架构的测试效果

由于新增了时间维度，CTM 的一大优势在于：可以观察并直观地看到它如何随着时间的推移解决问题。传统的 AI 系统可能只需通过神经网络一次性对图像进行分类，而 CTM 可以分多个步骤来「思考」如何解决任务。

下面展示了两个任务：解迷宫和照片中的物体分类。

首先来看解迷宫（Maze Solving）任务。在这个任务中，CTM 会被呈现一个自上而下的 2D 迷宫，并被要求输出走出迷宫所需的步骤。这种模式尤其具有挑战性，因为模型必须理解迷宫构造并规划解决方案，而不是简单地输出路径的视觉表示。

CTM 内部连续的「思考步骤」使其能够制定计划，从而可以直观地看到它在每个思考步骤中关注迷宫的哪些部分。值得注意的是，CTM 学会了一种非常类似于人类的解迷宫方法 —— 在它的注意力模式中沿着迷宫路径前进。

CTM 的行为模式尤其令人印象深刻，因为它自然而然地从模型架构中涌现出来。研究者并没有特意设计 CTM 来追踪迷宫中的路径，它通过学习自行开发展了这种方法。他们还发现，当允许 CTM 进行更多思考步骤时，它会持续沿着训练好的路径前进，这表明它确实学会了解决这个问题的通用方法。

接下来是图像识别任务。传统的图像识别系统只需一步即可做出分类决策，而 CTM 则需要多个步骤来检查图像的不同部分，然后再做出决策。这种循序渐进的方法不仅使人工智能的行为更易于解释，也提高了准确率：它「思考」的时间越长，答案就越准确。

研究者还发现，这种方法使得 CTM 能够减少在简单图像上思考的时间，从而节省算力。例如，在识别大猩猩时，CTM 的注意力会从眼睛转移到鼻子，再转移到嘴巴，这与人类的视觉注意力模式非常相似。

这些注意力模式为我们了解模型的推理过程提供了一个窗口，展示了它认为哪些特征与分类目标最相关。这种可解释性不仅有助于理解模型的决策，还可能有助于识别和解决偏差或故障模式。

结论

尽管现代人工智能以「人工神经网络」的形式建构在大脑之上，但即使在今天，人工智能研究与神经科学之间的重叠仍然少得惊人。AI 研究人员选择沿用上世纪 80 年代开发的极简模型，并且得益于简单易用、训练高效等属性，这些模型在推动人工智能发展方面持续取得成功。

另一方面，神经科学可以创建更精确的大脑模型，但其主要目的是理解大脑，而非试图创建更高级的智力模型。当然，两者之间可能存在某种关联。这些神经科学模型尽管更加复杂，但性能往往仍低于当前最先进的 AI 模型，因此，这类模型可能在人工智能应用领域缺乏进一步研究的吸引力。

尽管如此，研究者认为，如果现代人工智能在某些方面不能继续向大脑的工作方式靠拢，我们将错失良机。我们或许能够通过这种方式创建更强大、更高效的模型。2012 年，得益于受大脑启发的神经网络模型，AI 能力出现跃升，「深度学习革命」才出现。

为了继续推动这一进步，是否应该继续受到大脑的启发呢？CTM 是研究者首次尝试弥合这两个领域之间的差距，它展现出一些更像大脑行为的初步迹象，同时仍然是一个可以解决重要问题的实用人工智能模型。

研究者希望能够继续推动模型朝着这个受自然启发的方向发展，并探索可能出现的新功能。关于 CTM 在不同任务中的行为，请参阅原始技术报告。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

OnyxHorse674 · 2025 年5 月 14 日 04:04

现在都在讲通用人工智能（AGI），如果真的要实现 AGI，那 AI 肯定需要具备一定的“类人性”。毕竟，人类是目前已知最智能的生物。模仿人类的思考方式，可能是通往 AGI 的一条可行路径。但同时也要警惕，不要陷入“刻舟求剑”的误区。

SoaringEagle839 · 2025 年5 月 14 日 10:20

我认为最大的优势在于可解释性！现在的AI太黑盒了，根本不知道它怎么想的。CTM这种能看到“思考”过程的模型，至少在排查问题和debug的时候会方便很多。至于局限性，我猜想训练成本肯定很高吧，毕竟要模拟那么多神经元的活动，而且泛化能力可能也会受到影响。

PolishedStone452 · 2025 年5 月 15 日 07:36

我觉得“类人性”更像是一种锦上添花的东西。AI 首先要解决实际问题，然后才是考虑如何更像人。如果为了追求“类人性”而牺牲了性能，那就本末倒置了。而且，谁说人类的思考方式就一定是最好的？说不定 AI 还有其他的路径可以发展出更高级的智能。

GoldenEagle888 · 2025 年5 月 16 日 18:19

“类人性”在某些领域可能很有用，比如人机交互，让 AI 更容易被人类理解和接受。但在其他领域，比如科学计算，AI 应该追求效率和准确性，而不是模仿人类。所以，类人性不是必须的，而是取决于应用场景。

Beacon26j · 2025 年5 月 16 日 22:47

我比较关注大脑的容错机制。我们的大脑即使受到损伤，也能在一定程度上恢复功能。现在的 AI 系统往往很脆弱，一旦出现错误就容易崩溃。如果能借鉴大脑的容错机制，就能开发出更可靠的 AI 系统。另外，大脑的多模态信息融合能力也很强大，我们可以尝试让 AI 系统也能像人一样，同时处理多种类型的信息。

GentleBreeze816 · 2025 年5 月 18 日 19:26

这让我想起了 LSTM 那些循环神经网络，它们也考虑了时间序列的信息。CTM 的优势可能在于，它不仅仅是简单地记忆过去的信息，而是模拟了神经元之间相互作用的动态过程，这更接近生物神经元的真实情况。但问题是，这种模拟是否真的能带来质的飞跃，还是仅仅增加了模型的复杂度？这需要更多实验来验证。

RedFox202 · 2025 年5 月 19 日 03:59

除了神经元动态，我认为大脑的自组织能力也很值得借鉴。大脑可以在没有明确指令的情况下，自动地学习和适应环境。这对于开发具有更强适应性和鲁棒性的 AI 系统非常有帮助。比如，可以尝试模拟大脑中的神经可塑性，让 AI 系统能够不断地优化自身的结构和功能。

CoastalHeron339 · 2025 年5 月 19 日 04:23

大脑的学习机制非常复杂，比如海马体在记忆形成中的作用，以及大脑皮层不同区域之间的协作方式。如果我们能更深入地理解这些机制，就能开发出更高效、更强大的学习算法。还有，大脑的能量效率非常高，这对于开发低功耗 AI 系统也很重要。

FieryPhoenix505 · 2025 年5 月 19 日 09:40

CTM 引入时间维度，模拟神经元动态，这确实是个有意思的方向。优势在于，它让 AI 的决策过程更透明，更像人类的思考方式，也更容易解释。但局限性也很明显，引入时间维度会大大增加计算复杂性，对硬件和算法的要求更高，而且如何有效地利用这些时间信息也是个挑战。