Transformer与图神经网络的比较及推理能力分析

本文探讨了Transformer在图推理能力方面的发展及其与图神经网络的比较。

原文标题:Transformer 能代替图神经网络吗?

原文作者:数据派THU

冷月清谈:

本文探讨了Transformer在图推理任务中的表现,特别是与图神经网络(GNN)的比较。Transformer自问世以来,改变了自然语言处理(NLP)等领域,其强大的推理能力不容小觑。文章详细介绍了Transformer在图推理中的能力,分类了不同难度的任务,并分析了自注意力机制在解决全局任务中的优势。尽管在处理全局推理任务时,Transformer展现出更强的表现,但在局部推理任务上,GNN依然占有优势。研究表明,通过适当的微调和大规模训练,Transformer能够在特定任务中更有效,而GNN表现出的归纳偏见则有助于局部信息学习。文章最后强调了在图推理领域,Transformer与GNN之间的权衡与选择,建议读取完整论文以深入理解。

怜星夜思:

1、Transformer真的能超越图神经网络吗?
2、在实际应用中,如何选择Transformer和GNN?
3、未来的研究方向可能是什么?

原文内容

来源:DeepHub IMBA

本文约2000字,建议阅读7分钟

本文详细展示了Transformer在图推理方面的能力,并且涵盖了不同的参数缩放模式。


当Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最初设计之外的数据(如图像和其他序列数据)。

然后人们也开始优化和寻找替代方案,主要是为了减少计算成本(自注意力机制的二次方成本)。关于哪种架构在计算成本方面更优的讨论一直在进行,但是对于Transformer来说,它的成功之处在于模型能够展示出强大的推理能力。

如何分析神经网络的推理能力?

最常用的方法之一是研究利用架构内部表示能执行哪些算法。有一个完整的领域致力于这项任务:Neural algorithmic reasoning。Transformer是否能进行泛化,或者通过扩展是否能解决一些问题,这些问题仍然悬而未决,并且这方面的研究也十分活跃。

有些人认为Transformer具有普适推理能力,而其他人认为它是引领我们走向人工通用智能的架构(假设我们能够足够扩展它),但是目前看Transformer能够在不同的领域,NLP,时间序列,甚至CV中取得良好的成绩但是测试其极限也非常重要。我们不仅需要测试它的极限,还需要与其他架构进行比较,并在未来建立基准。

在最近的一项研究中,研究人员决定深入研究一个特定的领域:图神经网络。

今天介绍的这篇论文叫“Understanding Transformer Reasoning Capabilities via Graph Algorithms”。

这可能听起来有些奇怪,但近来Transformer(以及大型语言模型)与图(Graphs)之间的关系越来越密切。首先,自注意力可以被视为一种图的形式。其次,图(尤其是知识图谱)可以用来扩展Transformer。第三,图是复杂推理的理想抽象。思维链条和其他技术也可以被视为图的一种抽象。另外许多图问题可以通过简单的架构解决,而其他问题则需要复杂的推理和先进的图神经网络(GNNs)。

图计算已经成为过去几十年计算和人工智能中几个成功设计的基础之一,例如用于蛋白质预测的AlphaFold。许多推理任务可以表达为关于图的推理(这就是为什么像Tree of Thoughts或Graph of Thoughts这样的技术显示出成功)。所以这似乎是测试Transformer能力的最佳选择。

尽管有不同的理论前提,但是进行严格分析并不容易:

图推理任务可以被归类到已知的计算类别中。但是当我们想要评估一个神经网络解决这些任务的能力时,情况就不同了。在Transformer的情况下,我们也感兴趣的不仅仅是固定深度的情况,还有通过改变层数从而学习更简单或更复杂的表征时的变化。并且Transformer也可以在宽度上增长,这在考虑到对上下文长度的重新关注时尤其相关。

作者总结了三类任务,它们的难度逐步增加,只能通过越来越复杂的模型来解决:

  • 检索任务。节点计数、边计数、边存在检查和节点度数是只需要一次查找的任务,因此只需要一个Transformer层和一个小型嵌入。
  • 可并行化任务。连通性、连接节点和循环检查(以及更复杂的任务如二分性和平面性)可以用对数深度的Transformer解决。
  • 搜索任务。最短路径和其他需要更多推理的任务需要模型的扩展。

论文中进行了几项理论分析,展示了Transformer如何解决这些任务以及解决这些任务所需的维度要求。另一个有趣的点是,作者还分析了“pause tokens”的影响。

结果

在对Transformer的推理能力进行了实证分析后。他们选择使用从头开始训练的模型(最多60M参数),对预训练的Transformer(T5,带11B参数)进行微调,测试提示技术,并将其与图神经网络(GNNs)进行比较。使用GraphQA基准任务进行了实验。

图推理算法可以分为局部和全局两种。前者在局部聚合信息(节点及其邻居),而后者模拟节点之间可能是长距离的全局连接。论文主要专注于全局任务,如评估连通性或计算最短路径(这些任务需要分析图的全局结构)。在少数示例情况下,图神经网络(GNNs)在这些任务中更为高效,但通过增加示例数量,Transformer的表现更好(Transformer仍然具有弱归纳偏见,需要许多示例才能最好地学习)。对Transformer进行微调也对预训练的Transformer有积极影响。

以前的研究已经表明,对于图神经网络(GNN)来说,以参数效率的方式解决连通性存在限制。微调后的模型似乎对连通性和最短路径都更有效。虽然Transformer在解决全局任务方面更有效,但GNN在分析局部推理的任务中似乎更为高效:

表明GNN对于学习可以通过专门关注局部启发式解决的图推理任务具有有益的归纳偏见。(论文原文翻译)

在GNN中的消息传递框架便于节点与其邻居之间的信息传递(每增加一层相当于图中的一次跳跃)。相比之下,注意力机制计算每对标记之间的关系,因此它通过全局任务来促进,但在数据量较低的情况下,识别重要的局部关系更为困难。

作者还测试了使用大型语言模型(LLM)的情况,对表现优异的Transformer进行微调优于使用提示方法。尽管在训练过程中,LLM会在语料库中看到图数据,因此并不是完全没有接触过此类数据。但这表明在特定任务的情况下专业的小模型还是要更好,并且微调要比直接使用提示的方式好。

总结

这篇论文详细展示了Transformer在图推理方面的能力,并且涵盖了不同的参数缩放模式。许多问题可以被重新表述为图问题,所以这篇论文还是值得阅读。并且论文还显示,一些能力的展示需要一定的网络深度,以便让Transformer解决问题。例如在需要全局推理的任务中,Transformer超过了图神经网络(GNN),这得益于自注意力机制,它允许长距离依赖关系被高效评估。这些发现为使用Transformer处理具有复杂全局依赖性的图推理任务提供了理论和实证支持。

论文地址:
https://arxiv.org/abs/2405.18512
作者:Salvatore Raieli

编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得这还真要看具体应用场景。对于全局推理,Transformer有优势,但在处理局部结构的复杂关系时,GNN似乎更擅长。

并不是说Transformer一定超越GNN,而是它们各有特点。在某些特定任务中,微调后的Transformer表现更好,这也是研究的重点。

如果说绝对的话,还是要看数据量和任务类型。大数据下,Transformer展现实力,而小数据情况下,GNN可能更能体现归纳偏见的优势。

选择时可以考虑问题的性质,如果涉及复杂的全局依赖,Transformer可能是更好的选择。如果任务是局部特征学习,GNN或许更适合。

我觉得这个问题太具体了,结合实际情况和数据集的特点,比如图的规模和稀疏程度,能更好地帮助我们做出决策。

总的来说,试试两个模型的效果再决定也不迟!有时模型之间的对比效果能带来更意想不到的结果。

希望能有更多的研究集中在优化Transformer处理图数据的能力,特别是在全局任务上。如何减少计算成本也是一个重要方向。

未来的方向可能是融合模型的探索,如何在一个框架中结合Transformer和GNN的优点,利用两者的强项进行推理。

我觉得可以关注图神经网络中的新技术,如图注意力机制,这可能会和Transformer形成有趣的交集。