揭秘Transformer：可视化工具Transformer Explainer重磅来袭

almosthuman2014 · 2024 年8 月 11 日 12:10

原文标题：黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&

冷月清谈：

**关键要点：**

研究人员推出了一款交互式可视化工具Transformer Explainer，旨在帮助非专业人士理解Transformer架构。
该工具采用了桑基图可视化设计，展示了输入数据如何在模型组件中流转。
用户可以输入自己的文本并实时观察Transformer内部处理过程，了解模型处理和预测文本的能力。
Transformer Explainer紧密结合了模型概述和可视化低级运算和高级结构之间的相互作用。
同时集成的GPT-2模型允许用户进行实时推理，无需高级计算资源或编程技能。
该工具的设计原则包括：
- 多级抽象：从高层概览逐步深入了解细节。
- 交互性：通过可调节参数和自定义文本输入增强参与感和理解。

怜星夜思：

1、Transformer模型是如何处理文本输入，逐步预测下一个token的？
2、Transformer Explainer工具如何帮助初学者理解Transformer的内部工作原理？
3、Transformer模型的推理过程如何通过Transformer Explainer工具进行可视化？

原文内容

机器之心报道

编辑：杜伟、大盘鸡

都 2024 年，还有人不了解 Transformer 工作原理吗？快来试一试这个交互式工具吧。

2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构，可见其影响之广。

作为一种神经网络架构，Transformer 在从文本到视觉的多样任务中广受欢迎，尤其是在当前火热的 AI 聊天机器人领域。

不过，对于很多非专业人士来说，Transformer 的内部工作原理仍然不透明，阻碍了他们的理解和参与进来。因此，揭开这一架构的神秘面纱尤其必要。但很多博客、视频教程和 3D 可视化往往强调数学的复杂性和模型实现，可能会让初学者无所适从。同时为 AI 从业者设计的可视化工作侧重于神经元和层级可解释性，对于非专业人士来说具有挑战性。

因此，佐治亚理工学院和 IBM 研究院的几位研究者开发了一款基于 web 的开源交互式可视化工具「Transformer Explainer」，帮助非专业人士了解 Transformer 的高级模型结构和低级数学运算。如下图 1 所示。

Transformer Explainer 通过文本生成来解释 Transformer 内部工作原理，采用了桑基图可视化设计，灵感来自最近将 Transformer 视为动态系统的工作，强调了输入数据如何流经模型组件。从结果来看，桑基图有效地说明了信息如何在模型中传递，并展示了输入如何通过 Transformer 操作进行处理和变换。

在内容上，Transformer Explainer 紧密集成了对 Transformer 结构进行总结的模型概述，并允许用户在多个抽象层级之间平滑过渡，以可视化低级数学运算和高级模型结构之间的相互作用，帮助他们全面理解 Transformer 中的复杂概念。

在功能上，Transformer Explainer 在提供基于 web 的实现之外，还具有实时推理的功能。与现有很多需要自定义软件安装或缺乏推理功能的工具不同，它集成了一个实时 GPT-2 模型，使用现代前端框架在浏览器本地运行。用户可以交互式地试验自己的输入文本，并实时观察 Transformer 内部组件和参数如何协同工作以预测下一个 token。

在意义上，Transformer Explainer 拓展了对现代生成式 AI 技术的访问，且不需要高级计算资源、安装或编程技能。而之所以选择 GPT-2，是因为该模型知名度高、推理速度快，并且与 GPT-3、GPT-4 等更高级的模型在架构上相似。

论文地址：https://arxiv.org/pdf/2408.04619
GitHub 地址：http://poloclub.github.io/transformer-explainer/
在线体验地址：https://t.co/jyBlJTMa7m

既然支持自己输入，机器之心也试用了一下「what a beautiful day」，运行结果如下图所示。

对于 Transformer Explainer，一众网友给出了很高的评价。有人表示，这是非常酷的交互式工具。

有人称自己一直在等待一个直观的工具来解释自注意力和位置编码，就是 Transformer Explainer 了。它会是一个改变游戏规则的工具。

还有人做出了中译版。

展示地址：http://llm-viz-cn.iiiai.com/llm

这里不禁想到了另一位科普界的大牛 Karpathy，它之前写了很多关于复现 GPT-2 的教程，包括「」、「」等。如今有了 Transformer 内部原理可视化工具，看起来两者搭配使用，学习效果会更佳。

Transformer Explainer 系统设计与实现

Transformer Explainer 可视化展示了基于 Transformer 的 GPT-2 模型经过训练是如何处理文本输入并预测下一个 token 的。前端使用了 Svelte 和 D3 实现交互式可视化，后端则利用 ONNX runtime 和 HuggingFace 的 Transformers 库在浏览器中运行 GPT-2 模型。

设计 Transformer Explainer 的过程中，一个主要的挑战是如何管理底层架构的复杂性，因为同时展示所有细节会让人抓不住重点。为了解决这个问题，研究者十分注意两个关键的设计原则。

首先，研究者通过多级抽象来降低复杂性。他们将工具进行结构化设计，以不同的抽象层次呈现信息。这让用户能够从高层概览开始，并根据需要逐步深入了解细节，从而避免信息过载。在最高层，工具展示了完整的处理流程：从接收用户提供的文本作为输入（图 1A），将其嵌入，经过多个 Transformer 块处理，再到使用处理后的数据来对最有可能的下一个 token 预测进行排序。

中间操作，如注意力矩阵的计算（图 1C），这在默认情况下被折叠起来，以便直观地显示计算结果的重要性，用户可以选择展开，通过动画序列查看其推导过程。研究者采用了一致的视觉语言，比如堆叠注意力头和折叠重复的 Transformer 块，以帮助用户识别架构中的重复模式，同时保持数据的端到端流程。

其次，研究者通过交互性增强理解和参与。温度参数在控制 Transformer 的输出概率分布中至关重要，它会影响下一个 token 预测的确定性（低温时）或随机性（高温时）。但是现有关于 Transformers 的教育资源往往忽视了这一方面。用户现在能够使用这个新工具实时调整温度参数（图 1B），并可视化其在控制预测确定性中的关键作用（图 2）。

此外，用户可以从提供的示例中选择或输入自己的文本（图 1A）。支持自定义输入文本可以让用户更深入参与，通过分析模型在不同条件下的行为，并根据不同的文本输入对自己的假设进行交互式测试，增强了用户的参与感。

那在实际中有哪些应用场景呢？

Rousseau 教授正在对自然语言处理课程的课程内容进行现代化改造，以突出生成式 AI 的最新进展。她注意到，一些学生将基于 Transformer 的模型视为捉摸不透的「魔法」，而另一些学生则希望了解这些模型的工作原理，但不确定从何入手。

为了解决这一问题，她引导学生使用 Transformer Explainer，该工具提供了 Transformer 的互动概览（图 1），鼓励学生积极进行实验和学习。她的班级有 300 多名学生，而 Transformer Explainer 能够完全在学生的浏览器中运行，无需安装软件或特殊硬件，这是一个显著的优势，消除了学生对管理软件或硬件设置的担忧。

该工具通过动画和互动的可逆抽象（图 1C），向学生介绍了复杂的数学运算，如注意力计算。这种方法帮助学生既获得了对操作的高层次理解，又能深入了解产生这些结果的底层细节。

Rousseau 教授还意识到，Transformer 的技术能力和局限性有时会被拟人化（例如，将温度参数视为「创造力」控制）。通过鼓励学生实验温度滑块（图 1B），她向学生展示了温度实际上是如何修改下一个词元的概率分布（图 2），从而控制预测的随机性，在确定性和更具创造性的输出之间取得平衡。

此外，当系统可视化 token 处理流程时，学生们可以看到这里并没有任何所谓的「魔法」—— 无论输入文本是什么（图 1A），模型都遵循一个定义明确的操作顺序，使用 Transformer 架构，一次只采样一个 token，然后重复这一过程。

未来工作

研究者们正在增强工具的交互式解释来改善学习体验。同时，他们还在通过 WebGPU 提升推理速度，并通过压缩技术来减小模型的大小。他们还计划进行用户研究，来评估 Transformer Explainer 的效能和可用性，观察 AI 新手、学生、教育者和从业者如何使用该工具，并收集他们希望支持的额外功能的反馈意见。

还在等什么，你也上手体验一下，打破对 Transformer 的「魔法」幻想，真正了解这背后的原理吧。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

FrostyPenguin271 · 2024 年8 月 11 日 21:30

Transformer Explainer工具允许用户输入自己的文本并观察Transformer模型实时处理和预测的过程。用户可以逐字跟踪模型的推理过程，了解模型是如何将文本分成token、计算自注意力、预测下一个token的概率分布的。这使初学者能够对Transformer模型的工作原理有一个动态的直观理解，并识别它在处理不同类型文本时的行为模式。

Wisp43b · 2024 年8 月 11 日 23:10

Transformer模型采用逐字处理的方式，将输入文本分成一个个token。它首先将这些token转换为数字化的形式，称为嵌入。然后，它将嵌入的token传递给一个自注意力层，该层计算不同token之间的关系。接下来，这些关系用于加权和汇总token的嵌入，得到一个经过处理的表示。这个经过处理的表示被馈送进一个前馈神经网络，该网络预测下一个token的概率分布。

Nova837x · 2024 年8 月 13 日 02:47

Transformer模型利用了一种称为位置编码的技术来保留输入文本中单词的顺序信息。位置编码是一个与token位置相关的向量，它被添加到嵌入的token中。这有助于模型了解每个token在序列中的位置，并对其进行编码，即使单词的顺序被改变。因此，Transformer可以捕捉到文本中的长期依赖关系，并生成语法和语义正确的句子。

Stream67x · 2024 年8 月 14 日 14:19

Transformer Explainer工具的可视化推理界面提供了交互式元素，例如可调节的温度参数。通过调整温度，用户可以看到模型预测的确定性和随机性之间的权衡。较低的温度产生更确定的预测，而较高的温度引入更多的随机性。这有助于初学者理解温度在控制模型输出中的作用，并探索如何根据具体任务调整该参数。

ShimmeringSeal612 · 2024 年8 月 14 日 14:16

Transformer Explainer工具采用了一种交互式的方法，使用户能够以直观的方式探索Transformer模型的运作过程。它提供了一个可视化的界面，用户可以输入自己的文本并实时观察模型处理和预测文本的方式。通过调整温度参数，用户还可以了解该参数对预测确定性和随机性之间的影响。这种交互式体验有助于初学者直观理解Transformer模型的工作原理。

Cipher409q · 2024 年8 月 16 日 00:20

Transformer Explainer工具还通过可视化注意机制的运作方式来增强推理过程的理解。该工具显示了模型如何学习不同token之间的关系，并根据这些关系对每个token进行加权。通过观察注意力模式，初学者可以了解Transformer模型如何理解上下文的含义并生成连贯的文本。

Nomad63k · 2024 年8 月 16 日 19:24

Transformer模型采用了一种自注意力机制，它允许模型考虑输入序列中所有token之间的关系，而不是只关注顺序相邻的token。通过计算每个token对其他所有token的重要性，Transformer可以根据上下文的含义对序列中的每个位置进行编码。然后，它使用这些编码表示来预测下一个token的概率，从而生成流畅且连贯的文本。

Spark21u · 2024 年8 月 18 日 03:52

Transformer Explainer工具巧妙地将Transformer模型的复杂性分解为易于理解的块。它采用了一种分层的可视化方法，从模型的高级概述开始，逐步深入到低级的数学运算中。用户可以选择他们想要了解的细节程度，从整体流程到特定层的详细信息。这种模块化的方法使初学者能够逐步构建对Transformer模型的理解，而不会感到不知所措。

QuietKoala728 · 2024 年8 月 18 日 06:04

Transformer Explainer工具通过提供详细的文档和教程，为初学者提供了额外的支持。这些资源提供了有关Transformer模型基础知识、交互式界面操作指南以及常见问题和解决方法的信息。额外的支持材料消除了初学者在学习和使用该工具时的障碍，确保了他们能够充分利用其优点。