Meta科学家回顾十年前的注意力机制创新：被Transformer掩盖的End-To-End Memory Networks

almosthuman2014 · 2025 年5 月 1 日 10:11

Meta科学家回顾被Transformer掩盖的早期注意力机制创新，论文首次提出多层软注意力、位置嵌入等重要概念，为现代LLM奠定基础。

原文标题：被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650967521&idx=2&sn=802423d0737f0eb219a7484659d734ab&

冷月清谈：

Meta 研究科学家 Sainbayar Sukhbaatar 回顾了其 2015 年发表的论文《End-To-End Memory Networks》，该论文虽然早于 Transformer，但受关注度较低。论文的主要创新点包括：首次完全使用注意力机制替代 RNN 的语言模型、引入带键值投影的点积软注意力机制、堆叠多层注意力以及引入位置嵌入解决顺序不变性问题。Sukhbaatar 指出，该论文预见了当前大型语言模型（LLM）的许多要素，比如堆叠注意力层和位置嵌入。尽管 Transformer 后来居上，但《End-To-End Memory Networks》对后续研究产生了影响。目前，Sukhbaatar 团队仍在推进注意力机制的改进工作，例如最近发表的 Multi-Token Attention（MTA），旨在解决长上下文问题。

怜星夜思：

1、《End-To-End Memory Networks》提出的多层软注意力和位置嵌入，在今天的LLM中是标配，你认为除了这些，还有哪些早期的研究成果被Transformer的光芒掩盖了，但对现在的人工智能发展至关重要？
2、文章中提到《End-To-End Memory Networks》在当时尝试使用强化学习来训练注意力机制，但效果不如直接使用软注意力。你认为强化学习在AI的哪些领域更有潜力？
3、作者提到，即使已经过去十年，架构改进的工作仍有很多要做。你认为未来AI模型架构的演进方向是什么？

原文内容

机器之心报道

编辑：张倩

这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。

发布于 2017 年的 Transformer 论文——「Attention is all you need」被引量已经超过 17 万，成为这轮 AI 技术革命的标志性论文。

来自 Jeff Dean 的演讲幻灯片

同时，也有一些论文的光芒被它掩盖，比如发布于 2015 年的「End-To-End Memory Networks」。

论文一作、Meta 研究科学家 Sainbayar Sukhbaatar 在最近的一则推文中说道「回顾过去，这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个完全用注意力机制替代 RNN 的语言模型；它引入了带键值投影的点积软注意力机制，堆叠了多层注意力，使模型能关注输入的不同部分；它还引入位置嵌入来解决注意力机制中的顺序不变性问题……」

虽然这篇论文比《Attention is all you need》还早两年，但它并没有受到应有的关注，被引量只有 3000 多。

作者提到，这篇论文是对 Facebook AI 研究院 2014 年的一篇论文——「Memory Networks」的改进。「Memory Networks」引入了多层堆叠的硬注意力机制（hard attention）——与 Bahdanau 等人在单层上引入软注意力是同期提出的。

在去年的一个帖子中，，Bahdanau 等人在单层上引入软注意力的那项工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力机制的论文（最近拿到了的亚军），但「Attention is all you need」所受到的关注却是它的 100 多倍。不过，他也承认，「Attention is all you need」这篇论文有其独特性。

回到文章开头提到的「End-to-End Memory Networks」，它其实是将「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法结合到了一起，并展示了多层软注意力能够产生复杂的推理能力——这是当今 AI 架构最重要的方面之一。

除了核心创新，一作 Sainbayar Sukhbaatar 还分享了这篇论文诞生背后的故事和他们目前正在推进的新工作。

一篇被 Transformer 光芒掩盖的论文

论文标题：End-To-End Memory Networks
论文链接：https://arxiv.org/pdf/1503.08895

Sainbayar Sukhbaatar 回忆说，他们的「End-to-End Memory Networks」研究始于 2014 年春天。当时，他博士二年级，还在 FAIR 实习。他的导师 Rob Fergus 敦促他进行关于记忆的研究。不过，那会儿的他还不理解记忆意味着什么，因为那是一个由循环网络和卷积网络主导的世界，记忆并不像今天那样是一个重要的流行词。

不过，他的研究并不需要从头开始。因为当时，Facebook AI 研究院的 Jason Weston 等人已经做出了「Memory Networks」。此外，他们还发布了一套名为 bAbI 的任务，这些任务让循环模型惨败。因为这些任务需要以无序的方式查找多个事实，而这是 RNN 的致命弱点。

与「记忆」有关的这个项目最初吸引了很多人的关注，但事情进展并不顺利。

最终，他们开始着手于记忆网络的进一步研究，目标是让它学会关注何处，而不需要给定的标签。他们决定使用强化学习训练来教会记忆网络关注何处。

时间快进到 2014-2015 年冬天，他们当时已经实现了强化学习代码，并准备在语言模型任务上与基准进行比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的软注意力机制——但 Sainbayar Sukhbaatar 等人在研究中将其应用于多层结构中，这在之前是没有人做过的。所以他们将其作为基线实现，但做了一些改变，比如使用点积而不是小型多层感知器来计算注意力。令人惊喜的是，采用这种软注意力的记忆网络效果出奇地好，他们立即意识到这就是正确的方向。

在此之后，事情开始快速发展。在 Arthur Szlam（另一位作者）的坚持下，团队开始使用 bAbI 任务作为基准。他们开发了几种新技术，如为键和值使用不同的投影等。他们还需要解决注意力的顺序不变性问题，所以他们添加了时间嵌入（现在称为位置嵌入）。

Jason 建议在这些时间值中添加随机噪声以减少过拟合。最后，他们决定做一个当时不流行的语言建模任务。令人惊讶的是，他们仅使用注意力而没有任何时间 recurrence 就击败了 LSTM（在论文中，他们使用「recurrence」一词来描述重复的层，即像通用 transformer 那样共享权重）。

他们在 NeurIPS 提交的最后一天写了大部分论文。有趣的是，它最初被称为「弱监督记忆网络」，因为它需要更少的监督。

无论如何，那个时期是新架构的黄金时代，出现了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新论文。

回顾 10 年后的今天和当前大型语言模型的状态，Sainbayar Sukhbaatar 认为他们在论文中正确预见了几点。他们的模型是第一个不依赖 recurrence 的基于注意力的语言模型。他们成功地堆叠了多层注意力，使模型能够在输出下一个 token 之前关注上下文的不同部分。他们还使用了位置嵌入，甚至是相对位置嵌入，这现在已成为大型语言模型的标准做法。

虽然这篇论文没有像「Attention is all you need」一样引起轰动，但也起到了一定作用。有人表示自己多次读过这篇论文，试图理解为什么某种神经架构有效。

Sainbayar Sukhbaatar 承认，Transformer 确实做出了重要的改进，比如使用前一层的隐藏状态作为下一层的记忆。还有前馈层、多头注意力等等。

他认为，即使已经过去十年，架构改进的工作仍有很多要做。所以，前段时间，他们发布了一篇题为「Multi-Token Attention」（MTA）的新论文。

MTA 在多个查询、键和头上调节注意力，在许多指标上都优于标准软注意力。特别是，它能够更好地解决长上下文问题，例如「大海捞针」类任务。有趣的是，2015 年「记忆网络」论文的结论中就已经提到这一点作为未来的工作：「平滑查找可能不会很好地扩展到需要更大记忆的情况」，这恰恰是该领域今天仍在研究的问题。

如果你对他们的论文感兴趣，欢迎去阅读论文原文（参见《》）。

参考链接：https://x.com/tesatory/status/1911150652556026328

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

GoldenEagle888 · 2025 年5 月 1 日 21:41

同意楼上的观点。强化学习在医疗领域也有很大的潜力，比如辅助药物发现，个性化治疗方案等等。不过，医疗领域对安全性和可靠性要求很高，所以强化学习的应用还需要更多的研究和验证。

RedFox202 · 2025 年5 月 2 日 07:16

个人觉得模型会更加注重效率，包括计算效率和数据效率。现在的大模型太耗资源了，普通人根本玩不起。未来的模型应该能够在更少的资源下，达到更好的效果。

Whisper51y · 2025 年5 月 2 日 14:32

强化学习在需要与环境交互，并根据奖励进行学习的领域更有潜力。比如游戏AI，机器人控制，以及推荐系统，这些都需要agent在不断与环境交互地过程中找到最优策略。

CloudySky415 · 2025 年5 月 2 日 19:40

我感觉强化学习在金融领域的应用也被低估了。比如量化交易，风险管理等等。虽然现在有一些应用，但是感觉还有很大的潜力可以挖掘。

Echo319s · 2025 年5 月 3 日 16:17

我觉得自适应架构会是一个趋势，模型可以根据输入数据的特点，动态地调整自身的结构和参数。另外，我觉得多模态融合会越来越重要，模型需要能够同时处理文本、图像、音频等多种类型的数据。

MorningDew906 · 2025 年5 月 4 日 05:24

谢邀，人在实验室，刚看完paper。

我个人认为，早期的attention机制的探索，比如Bahdanau的那篇，虽然细节上和Transformer的attention有所不同，但是为后续的attention机制发展奠定了基础。没有这些早期探索，Transformer可能也不会这么快出现。

Caliber237r · 2025 年5 月 4 日 15:52

楼上说的word2vec确实经典。我补充一个，我觉得是各种各样的RNN变体，比如LSTM和GRU。虽然Transformer在很多任务上超越了它们，但是这些RNN变体在处理序列数据方面仍然有很大的价值，而且它们的设计思想也启发了后来的研究者。

Aura25g · 2025 年5 月 4 日 22:31

这个问题问得好！我觉得可能被忽略的早期成果有很多，比如早期的word2vec，让机器理解了词语之间的相似性，而且也诞生了很多魔改版本。我个人觉得这个思路对现在embedding技术有很深远的影响。

PolishedStone452 · 2025 年5 月 4 日 22:30

我觉得未来的模型架构会更加模块化和可组合化，就像乐高积木一样，可以根据不同的任务需求，灵活地组合不同的模块。另外，模型的可解释性会越来越重要，不能再像现在一样是个黑盒子。