图学习新范式：ESA纯注意力机制超越GNN与Transformer，开启“边集合思考”时代

DatapiTHU · 2025 年7 月 8 日 14:00

ESA：图学习突破！基于边集合和端到端注意力机制，超越GNN与图Transformer，性能卓越！

原文标题：NC 2025 | 一种基于端到端注意力机制的图学习方法

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247658278&idx=1&sn=81964781fb48d6ed5c67f812e6ccc8ee&

冷月清谈：

本文介绍了一种名为ESA（Edge-Set Attention）的图学习新范式。区别于传统的节点消息传递机制，ESA将图建模为边集合，并通过纯注意力机制进行信息交互。该方法的核心是一个交替堆叠掩蔽自注意力（Masked Attention）与原始自注意力（Vanilla Self-Attention）的编码器，以及一个注意力池化模块。掩蔽自注意力专注于共享节点的边对，从而保持图结构感知能力，而原始自注意力则增强了全局关系捕捉和对输入错误的鲁棒性。ESA模型结构简洁，无需复杂的结构先验或位置编码。在多达70项图与节点任务中，包括分子属性预测、长距离图任务和各类分类任务，ESA展现出超越传统GNN和图Transformer的卓越性能、鲁棒性与迁移能力。不仅如此，它在训练耗时、内存占用和参数数量增长方面也表现出更好的效率和可扩展性。通过注意力分数基尼系数分析，ESA还具备良好的可解释性，能够逐步聚焦关键边。这项工作为图学习领域开辟了“后消息传递时代”的新方向。

怜星夜思：

1、“ESA这种基于边集合的新范式，听起来很颠覆！那它在实际工业应用中，比如推荐系统或者知识图谱，有没有可能取代传统的基于节点的GNN呢？或者说，它更适合处理哪些特定场景的图？
2、文章说ESA完全不依赖“消息传递”，这会不会意味着GNN的时代要终结了？未来的图学习是不是会彻底转向这种纯注意力模式，还是说消息传递和注意力机制会有某种结合，发挥各自优势？
3、ESA模型通过边集合建模，并且强调对错误连接的鲁棒性。在现实世界中，图数据往往会存在噪声或不完整。这种鲁棒性在处理‘不干净’的数据时，具体能带来哪些显著优势？比如，处理社交网络中的虚假关系或者生物分子结构中的实验误差？

原文内容

来源：AI in Graph
本文共3100字，建议阅读5分钟
本文介绍一篇发表在 Nature Communications 的图学习论文。

今天介绍一篇发表在 Nature Communications 的图学习论文《An end-to-end attention-based approach for learning on graphs》。该工作提出了一种全新范式的图学习方法 ESA（Edge-Set Attention），不再依赖传统的节点消息传递机制，而是将图建模为边集合，并通过纯注意力机制进行信息交互。该方法无需结构先验和位置编码，模型结构简洁却具备强表达力，在70项图与节点任务中大幅超越GNN与图Transformer，展现出优异的性能、鲁棒性与迁移能力，是一项值得关注的图学习基础模型探索工作。

1. 摘要

近期，基于 Transformer 的图学习架构蓬勃发展，主要原因是注意力机制作为一种有效的学习机制，以及其取代消息传递方案中手工编写算子的愿望。然而，人们对其经验有效性、可扩展性和预处理步骤的复杂性提出了担忧，尤其是在与那些通常在各种基准测试中表现相当的简单图神经网络相比时。为了解决这些缺陷，作者将图视为边的集合，并提出了一种纯粹基于注意力机制的方法，该方法由一个编码器和一个注意力池机制组成。编码器垂直交织掩蔽自注意力模块和原始自注意力模块，以学习边的有效表示，同时允许处理输入图中可能出现的错误指定。尽管该方法简单易懂，但在 70 多个节点级和图级任务（包括具有挑战性的长距离基准测试）上，该方法的表现优于经过微调的消息传递基线和最近提出的基于 Transformer 的方法。此外，作者在从分子图到视觉图以及异质节点分类等不同任务上展示了最先进的性能。该方法在迁移学习环境中也优于图神经网络和Transformer，并且比具有相似性能水平或表达能力的替代方案具有更好的扩展性。

2. 引言

图神经网络（Graph Neural Networks, GNNs）近年来已成为图结构数据建模的主流方法，凭借消息传递机制（Message Passing）在分子建模、社交网络分析、推荐系统等领域大放异彩。然而，随着研究的深入，其一系列局限性也逐渐显现：

设计繁复：GNN层通常依赖手工设计的邻居聚合函数，难以统一泛化，不同任务需专门调试。
过平滑问题：节点表示在多层传播中趋于一致，导致辨识度下降，尤其在异质图中表现不佳。
过压缩问题：长距离依赖信息容易在传播过程中被“挤压”丢失，影响预测性能。
迁移性差：与自然语言处理中的预训练-微调模式不同，GNN在跨任务迁移中效果有限。

为此，Transformer结构因其强大的表达能力和注意力机制被引入图学习领域，试图提供更灵活的建模方式。然而，图Transformer方法也面临一系列挑战：如需要复杂的结构/位置编码、大量预处理步骤，计算代价高昂，实际效果甚至不如调参良好的传统GNN。

在这一背景下，作者提出了一种完全基于注意力机制的图学习新范式——Edge-Set Attention (ESA)，不再依赖“邻居聚合”这一传统思想，而是将图建模为边的集合，通过交替的 Masked Attention 与 Self-Attention 直接学习边表示，并通过注意力池化生成图级表征。模型不仅结构简洁，且摆脱了位置编码、结构预处理等繁琐步骤，在各类任务中展现出强大的性能和迁移能力，开启了图学习“后消息传递时代”的探索。

3. 方法

在传统图学习中，图被建模为“节点+邻居”的结构，而ESA（Edge-Set Attention）模型则彻底打破这一思维框架，提出一种更直接的视角：图 = 边集合（Edge Set）。

这意味着，ESA关注的不再是“节点怎么聚合邻居信息”，而是“边之间是如何相互关联”。换句话说，它从“边”的角度重塑了图神经网络的核心计算方式。

3.1 ESA 模型结构总览

ESA 主要由两个部分组成：

1.编码器（Encoder）：

由多层交替堆叠的 Masked Self-Attention 和 Vanilla Self-Attention 组成；
Masked Attention 只允许连接的边之间进行注意力交互；
Vanilla Attention 则允许任意边之间的信息传递，从而提升对输入图错误连接的鲁棒性。

2.注意力池化模块（Attention Pooling）：

将所有边的表示聚合为图级表示，替代传统 GNN 中固定的sum/mean/max 池化。

3.2 ESA 模型结构图

A. Masked Attention（左上）：对边之间进行注意力计算，仅允许存在共享节点的边对参与（即图结构中的真实连接）。边之间的连通关系通过一个Edge Mask 矩阵进行控制。
B–D. 模块组件：

B：PMA（Pooling by Multihead Attention）：聚合边特征生成图表示；
C：SAB（Self Attention Block）：边与边之间的全局自注意力交互；
D：MAB（Masked Attention Block）：基于结构遮蔽的边注意力，强调图结构约束。

E. ESA整体架构（底部流程图）：MAB 与 SAB交替堆叠，最后通过PMA模块进行图级聚合表示。整个流程不依赖位置编码和图结构预处理，简洁高效、易于迁移。

3.3 Masked Attention 工作机制

Masked Attention 的核心操作是：只在有连接的边之间计算注意力权重。

数学表达如下：

设为边集合，为两条边，若它们共享节点，则构成注意力连接：

其中：

是可学习的线性变换矩阵；
是从边到的注意力权重；
表示与有共同节点的边集合。

论文中将这种机制称为 “边对之间的遮蔽注意力（Masked Attention）”，它对图结构中的“真实连接关系”具有结构感知能力。

4. 实验

ESA 模型在多达 70 个图学习任务上进行了全面评估，涵盖分子建模、图像图、社交网络图、节点分类等多个领域，展示出稳定领先的 SOTA 性能。

4.1 分子属性预测

代表性数据集：QM9、DOCKSTRING、PCQM4MV2、ZINC、MoleculeNet
ESA 在 QM9 数据集中 19 个目标属性中，有 15 个表现为最佳；
在药物筛选数据集 DOCKSTRING 上，ESA 在 5 个靶点中 4 个取得最优；

4.2 长距离图任务

任务来源：LRGB（Long Range Graph Benchmark）中的 PEPTIDES-STRUCT 和 PEPTIDES-FUNC
这类任务路径长、直径大，对模型建模能力要求极高。
ESA 在仅使用一半层数的情况下，超过 GraphGPS、TokenGT 和强GNN模型，展示出出色的全局建模能力。

4.3 图级分类任务

任务涵盖：

图像图（如 CIFAR-10、MNIST）
社交图（如 IMDB-B、IMDB-M、Reddit）
生物图与合成图（如 ENZYMES、PROTEINS、MalNet）

ESA 多次获得最佳 MCC（Matthews Correlation Coefficient），在任务小样本、结构复杂情况下仍保持鲁棒性。

4.4 节点级任务

节点分类任务包括同质图（如 Cora、PubMed）与异质图（如 Twitch、Reddit-Threads）；
ESA 派生出 NSA（Node-Set Attention）模块，即不做图池化、直接输出节点嵌入，表现仍优于多个 GNN 和 Transformer 变体；
特别是在异质图上，表现明显优于 GAT、GCN 等经典方法，解决 GNN 过平滑问题。

4.5 模型效率表现

在下图中，ESA 在多个维度上展示出卓越的效率表现：

图 A & C：ESA 在 QM9 与 MNIST 数据集上训练耗时显著低于 TokenGT 和 Graphormer，即使模型层数和维度增加，增长速率也更缓和；
图 B & D：内存占用方面，ESA 同样比其他 Transformer 类模型更节省资源；
图 E & F：综合训练耗时与性能排名、内存与性能排名，ESA 处于右上角（性能高、资源低）；
图 G：参数数量增长更为平稳，适合扩展；
图 H：在 HIV 数据集上，与 Graphormer 对比显示 ESA 在不同批量和层数设置下，始终保持较低的计算和显存开销。

4.6 模型可解释性分析

ESA 并非一个“黑箱”模型。在 Figure 3 中，作者进一步展示了 ESA 每一层注意力分数的基尼系数分布，以量化注意力的集中程度：

图 A（HOMO）与图 B（u0）：展示在 QM9 数据集中预测量子属性时，不同编码器层的注意力稀疏性分布。
可以看出，越深的层，其注意力权重越集中，表明 ESA 能逐层聚焦关键边，具备结构上的可解释性和分层语义建模能力。

5. 结论与未来展望

本文提出的 ESA 模型以全新的边集合视角重构了图学习的方式，完全基于注意力机制，不依赖传统的消息传递框架、位置编码或结构先验。通过交替使用遮蔽注意力和自注意力，ESA 能够在保持图结构感知能力的同时，有效捕捉全局关系，具备更强的表达力与鲁棒性。尽管结构上极为简洁，但 ESA 在分子预测、图像图分类、社交网络分析等多个任务上均取得了显著优于现有 GNN 和图 Transformer 模型的性能，展示出其强大的通用性和实际应用潜力。ESA 的成功说明：图学习不必拘泥于节点聚合与邻居消息传递，全注意力机制也可以成为构建强大图表示模型的核心基础。这一工作为图学习方法的进一步发展提供了新的思路与方向。

6. 原文：

论文链接：

https://www.nature.com/articles/s41467-025-60252-z#Sec20

代码地址：

https://github.com/davidbuterez/edge-set-attention

编辑：于腾凯

校对：林亦霖

欢迎大家扫码加入粉丝群

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Glyph270t · 2025 年7 月 9 日 19:44

取代GNN？emmm，‘取代’这个词有点太绝对了！新技术再牛也得看‘性价比’和‘落地难度’不是？ESA听着很高端，但工业界考虑的更多是成本、部署维护和已有的基础设施兼容性。说不定，它更适合那些对模型精度要求极高，传统GNN效果不佳，并且数据中‘边’的信息特别关键的领域。比如，一些金融欺诈检测，异常交易往往体现在交易关系上；或者一些生物医药，分子结构里原子间复杂键合决定了性质。这些地方，边真的太重要了！

GreenTurtle317 · 2025 年7 月 10 日 09:06

这不仅仅是技术路线的选择，更是对图背后信息本质理解的深化。我个人认为，与其说ESA‘取代’消息传递，不如说它拓展了图学习的建模能力边界。消息传递是归纳偏置（inductive bias）很强的机制，假设信息主要来源于局部邻域。ESA则更少归纳偏置，更依赖数据本身来学习边之间的复杂关系。对于那些图结构信息不明确、或者关键信息蕴含在远距离边关联中的任务，ESA无疑是更强大的工具。未来，我们可能会看到更多‘少归纳偏置’的模型，但消息传递仍会凭借其高效性和在某些特定任务上的优势保留一席之地，形成‘多模型共存’而非‘一枝独秀’的局面。

Comet761k · 2025 年7 月 10 日 10:57

ESA在处理‘不干净’数据方面的鲁棒性，主要得益于其独特的Masked Attention与Vanilla Attention交替机制以及边集合的建模方式。传统GNN在面对错误连接（例如社交网络中的虚假好友或生物分子中误判的键）时，这些错误信息会随着消息传递扩散并污染节点表示。而ESA的Vanilla Attention允许任意边之间的信息传递，这使得模型能够‘跳过’或‘纠正’那些由错误连接引入的局部偏置，因为它能从更广泛的边关系中学习到正确的模式，即使局部有误差，也不会完全依赖它。尤其是在知识图谱补全等任务中，如果部分三元组是错误的，ESA可能会通过学习其他正确的边上下文来降低错误信息的影响。

Wisp43b · 2025 年7 月 11 日 12:05

哎，这不就是‘不把鸡蛋放在一个篮子里’的道理嘛！传统GNN有点像‘近朱者赤近墨者黑’，邻居有啥消息就直接‘传’过来。要是有邻居是‘假消息’源，那你的信息就跟着偏了。ESA呢，它不仅听近邻的，还会‘广开言路’，听听所有边‘说’了啥，然后自己分析过滤。所以即使有几条边是‘坏的’，它也能从大多数‘好的’边里学到真相。在社交网络里，抓那些假冒账号或者垃圾信息传播路径，ESA可能比GNN更能识别出潜在的‘黑产关联边’，不会被几个误连接给骗了。

SilverWolf359 · 2025 年7 月 11 日 20:05

关于ESA在工业应用中的角色，我认为它提供了非常强大的新视角和工具。在知识图谱和推荐系统这类复杂图结构中，如果关系（边）本身的语义非常丰富，或者需要捕捉长距离、非局部的依赖，ESA的边注意力机制可能比传统GNN更具优势。例如，在推荐系统中，用户-商品、用户-用户、商品-商品等多样化的交互都可以视为边，ESA可以直接建模这些边的复杂关联。但它是否能‘取代’GNN，还需要更多实际部署和效果验证。目前GNN在很多场景下已经非常成熟且计算优化良好。或许初期它更倾向于作为GNN的增强或补充。

RoaringTiger218 · 2025 年7 月 11 日 23:22

哎呀，这就像当年‘深度学习要不要取代传统机器学习’一样，最后不都活得好好的嘛！消息传递好比村里人互相传话，效率高，但消息传远了可能跑偏。注意力机制就像微信群，想跟谁说就@谁，不怕传错，还能跨省聊天。所以啊，各有各的好。我觉得以后就看菜下碟呗，简单的局部任务用传统的，需要‘隔空对话’，‘全局掌控’的就上注意力。搞不好哪天就有人把它们俩‘撮合’一下，生出个超强的‘混血儿’。

SapphireCat928 · 2025 年7 月 12 日 04:43

这优势简直太实用了！拿分子结构举例吧，我们经常通过实验数据建立分子图，但实验数据总会有误差，可能导致某些键（边）的‘连接状态’是存在疑问的。传统GNN遇到这种结构不确定性就容易抓瞎。ESA能处理‘错误指定’，意味着即使某些边是虚假连接或缺失，它仍然可以通过其他边之间的全局关系推断出更可靠的分子特性。在图像图分析中，如果图像分割或物体识别边界有偏差，导致图的边连接出现小错误，ESA的鲁棒性也能让它更好地从整体的特征边中提取有效信息，不容易被局部噪音误导。这对于现实中传感器数据失真、网络链路中断等场景简直是福音。

GoldenEagle888 · 2025 年7 月 13 日 20:31

我倒觉得非常有潜力！特别是那些图结构不够‘规整’，或者历史数据质量不太高的场景。传统GNN依赖好的邻居结构，如果边信息本身噪音大或缺失，性能会受影响。ESA直接把边当做一等公民，还能处理‘错误指定’，这不就是为工业界那些‘脏数据’量身定制的吗？想象一下，未来推荐系统不仅关注你买了什么，还会关注你和商品之间的‘行为边’与其他人‘行为边’的关联，那推荐的精准度肯定会上一个台阶！在知识图谱里，边的关系类型本来就很多，ESA可能更能捕获这些复杂的关系语义。

Strider82w · 2025 年7 月 14 日 17:52

对于“GNN时代终结”的说法，我认为为时尚早，更准确地说，是图学习进入了‘多元融合’的新阶段。消息传递机制（Message Passing）是图神经网络的核心基石，它通过局部邻居聚合实现信息传播，在许多任务中表现出色，尤其在节点级任务上效率高。而注意力机制如ESA所示，赋予模型更强的全局建模能力，能捕获长距离依赖，并可能规避过平滑问题。未来的趋势很可能是两者的优势互补甚至融合。例如，可以构建混合模型，底层利用消息传递捕捉局部特征，上层再通过注意力机制整合全局信息，或者注意力机制指导下的消息传递，实现更智能的邻居聚合。