基于图神经网络的深度图表示学习:表达力、可扩展性与可解释性

斯坦福博士论文提出利用图神经网络(GNNs)提升图表示学习的表达力、可扩展性和可解释性,并展示了其在多个领域的应用。

原文标题:【斯坦福博士论文】朝向具表达力和可扩展的深度图表示学习

原文作者:数据派THU

冷月清谈:

这篇斯坦福博士论文探讨了如何利用图神经网络 (GNNs) 来解决图表示学习中的挑战,特别关注表达力、可扩展性和可解释性三个方面。

论文首先指出了传统图表示学习方法的局限性,例如难以扩展到大型图、表达能力不足以及在归纳场景中的局限性。然后,作者介绍了GraphSAGE框架,这是一个通用且强大的GNN框架,并提出了一种扩展模型以提高其可解释性。

为了提升GNNs的表达能力,论文探索了多种方法,包括使用分层结构、几何嵌入空间以及多跳注意力机制。这些改进的GNN架构在分子图分类、知识图谱和大规模引文网络等任务中取得了显著的性能提升。

论文还展示了GNNs在实际应用中的案例,例如PinSAGE模型,该模型已部署在Pinterest,为数十亿用户提供推荐服务。此外,GNNs还被应用于预测材料的物理性质和检测动态系统中的滥用行为。

最后,论文总结了GNNs在处理大规模图数据、捕捉层次结构信息以及提高模型表达能力和可解释性等方面的优势,并展望了其在未来研究中的潜力。

怜星夜思:

1、论文中提到的GraphSAGE框架与其他GNN框架(如GCN、GAT)相比,有哪些主要优势和不足?
2、如何理解论文中提到的“表达能力”和“可解释性”,以及它们在图表示学习中的重要性?
3、论文中提到的PinSAGE模型是如何应用于Pinterest的推荐系统的?它解决了哪些实际问题?

原文内容

来源:专知

本文为论文介绍,建议阅读5分钟

在这篇论文中,我展示了一系列开创性的工作,利用图神经网络(GNNs)来解决图表示学习在解释性、可扩展性和表现力方面的挑战。



在科学和工业中图结构的普遍性要求我们拥有能够捕获关系数据底层归纳偏见的有效且可扩展的机器学习模型。然而,传统的图结构表示学习算法面临很多限制。首先,包括矩阵分解和分布式嵌入在内的传统方法由于其参数空间的大小而无法扩展到拥有数十亿节点和边的大型实际图。其次,与深度学习架构的最新进展相比,它们缺乏表达能力。最后,它们在归纳场景中失败,因为它们需要对训练期间未见过的节点进行预测。最终,模型从数据中学到的内容对领域专家来说难以理解。

在这篇论文中,我展示了一系列开创性的工作,利用图神经网络(GNNs)来解决图表示学习在解释性、可扩展性和表现力方面的挑战。在第一部分,我展示了我的GraphSAGE框架,作为一个通用但强大的图神经网络框架。为了解决新GraphSAGE框架的模型可解释性挑战,我进一步引入了一个扩展模型,从已训练的图神经网络模型中获得有意义的解释。在GraphSAGE的框架下,第二部分展示了一系列的工作,通过使用分层结构、几何嵌入空间以及多跳注意力来提高GNNs的表达能力。这些基于GNN的架构在各种上下文的任务上实现了前所未有的性能提升,如分子的图分类、分层知识图和大规模引文网络。

在第三部分,我进一步展示了GNNs的各种应用。基于GraphSAGE,我开发了PinSAGE,这是第一个部署的能够扩展到十亿级图的GNN模型。PinSAGE已在Pinterest部署,为Pinterest的数十亿用户提供推荐。在图形和仿真领域,我们应用了表现力强大的架构来准确预测不同材料的物理性质,并允许对未见过的动态系统进行泛化。最后,我讨论了BiDyn,一个用于滥用检测的动态GNN模型,然后总结了这篇论文。

在科学和工业中图结构的无处不在,需要能够捕获关系数据底层归纳偏见的有效且高效的机器学习模型。我的研究旨在学习深度表示,捕获图结构的高度复杂的连接信息,并利用这些表示在许多下游任务中进行预测,包括节点、链接、子图和整个图的级别。我的研究为图神经网络贡献了基本部分,这些网络结合了神经网络的高表达能力和图连接信息的归纳偏见,并适用于多种应用(如图1所示)。建模关系数据带来了许多基本的挑战。(1) 实际应用涉及极大规模的数据集,例如涉及数亿粒子的物理系统,以及用户和内容之间有数十亿次交互的网页规模的社交应用。它们要求对图形进行高效且具有泛化能力的学习算法。(2) 在关系结构中经常存在丰富的层次结构信息,例如基因本体论、概念分类以及网络中的模式出现。对关系数据的这种层次结构的学习是深度图表示学习中的一个开放性挑战。(3) 表达能力和可解释性的建模是分析复杂网络进行深度图表示学习时的两个关键方面。

我的研究重点是开发可扩展、具有表达能力和可解释性的深度学习算法,对图结构数据进行预测。我在图神经网络(GNNs)领域提出了许多基础方法,这使得网络分析领域发生了范式转变,并在多个领域的应用中取得了突破性的性能。我的研究改变了如推荐系统、知识图谱领域的图学习方法,并被扩展以增强在化学和物理应用中的科学发现。我推进该领域并解决挑战的方法是设计新的方法论(带有可解释性),利用图神经网络(GNNs)来捕获网络的结构信息,并探索学习适合不同图拓扑的有表达能力的嵌入几何形态。以下是主要贡献列表: 

• 提出了最广泛使用的GNN方法之一(第2章)及相关的训练技术,使得十亿规模的图结构数据的深度表示学习成为可能。 
• 创建了一些最先进的GNN架构(第4、5、6章)以及通用的GNN框架,以实现表达能力和可解释性(第3章)。 
• 展示了在各种科学领域和工业用例中GNNs的应用(第7、8、9章)。
我的长期研究目标是开发具有人类水平推理能力的机器学习模型。与如分类等传统任务相比,人类水平的推理强调逻辑推理能力,可以解释为通过学习概念和实体之间的关系,在图结构上导航。我从关系和层次结构中的学习使得朝着人类水平推理的目标开启了新的范式。


GraphSAGE的主要优势在于它的归纳学习能力,可以泛化到未见过的节点。相比之下,GCN和GAT等直推式方法需要在训练过程中看到所有节点。不过,GraphSAGE的局部聚合机制可能不如GCN和GAT等全局方法能够有效地捕捉图的全局结构信息。

从论文的描述来看,GraphSAGE的灵活性更高,可以根据不同的任务需求选择不同的聚合函数。GCN和GAT的聚合方式相对固定,可能在某些特定场景下效果不如GraphSAGE。

简单来说,表达能力强的模型能学到更多东西,可解释性好的模型能告诉我们它学到了什么。这两个特性都很重要,因为我们不仅希望模型性能好,还希望知道它为什么好,以及如何改进它。

我觉得可以从信息论的角度来理解表达能力,即模型能够编码多少关于图结构的信息。而可解释性则可以看作是模型输出的可理解程度,例如可以将模型的预测结果转化为人类可理解的规则或解释。

我记得PinSAGE使用了随机游走和图卷积等技术,可以学习到用户和物品的深层表示。相比传统的协同过滤方法,PinSAGE能够更好地捕捉用户兴趣的多样性和物品之间的关联性,从而提高推荐的准确性和个性化程度。

PinSAGE的关键在于它能够处理Pinterest的十亿级图数据,并且能够有效地进行在线推荐。这对于传统的推荐方法来说是一个巨大的挑战。

PinSAGE在Pinterest中用于生成用户和物品的嵌入向量,然后根据这些向量计算用户对物品的兴趣度,从而进行推荐。它解决了大规模图数据上的推荐问题,以及如何有效地捕捉用户和物品之间的复杂关系。

我觉得GraphSAGE的采样机制对于处理大规模图数据非常重要,可以有效降低计算复杂度。GCN在这方面就比较吃亏,容易爆内存。至于GAT,它的注意力机制虽然可以关注重要的邻居节点,但计算量也更大一些。

“表达能力”指的是模型能够捕捉图数据中复杂关系的能力,而“可解释性”则指的是模型的预测结果能够被人类理解和解释。在图表示学习中,高表达能力的模型可以更好地学习节点和边的表示,从而提高下游任务的性能。而可解释性则有助于我们理解模型的决策过程,并发现数据中的隐藏模式。