CMU博士论文解读:迈向更强大的图表示学习,探索图基础模型

CMU博士论文研究图表示学习,探索节点/图级别表示、生成模型及异常检测应用,旨在构建图基础模型。

原文标题:【CMU博士论文】朝着更强大的图表示学习迈进

原文作者:数据派THU

冷月清谈:

本文解读了CMU一篇关于图表示学习的博士论文,该论文旨在构建更强大的图表示学习方法,最终目标是实现图的基础模型。论文的研究内容涵盖了节点级别和图级别表示学习,并提出了相应的解决方案。

在节点级别表示学习中,论文探讨了图卷积网络(GCNs)与主成分分析(PCA)的关系,并提出了解决“表示过度平滑”问题的方法。研究发现,图正则化PCA的解与单个图卷积层的公式一致,这有助于更深入地理解GCNs的优势。

在图级别表示学习中,论文针对图神经网络(GNNs)表达能力的局限性,提出了两种增强方法:使用有根子图提高局部结构意识,以及探索无序的高阶交互以提升表达能力和可扩展性。

在图生成模型方面,论文针对图生成中由于无序性带来的挑战,提出了一种基于部分顺序的扩散模型。该模型结合了自回归方法和扩散模型,解决了图生成中的顺序问题,并为图上的生成预训练奠定了基础。

最后,论文探讨了图表示学习在图级别异常检测(GLAD)中的应用。论文建立了一个基于图神经网络的强基准模型“OCGIN”,并针对“性能反转”问题进行了研究。此外,还设计了一个特定模型用于检测可疑会计交易。

怜星夜思:

1、论文中提到的“表示过度平滑”问题具体指什么?在实际应用中,如何缓解或避免这个问题?
2、论文中提到的基于部分顺序的扩散模型,是如何将自回归方法与扩散模型结合的?这种结合有什么优势?
3、论文中提到的“OCGIN”模型有哪些特点?在图级别异常检测任务中,它与其他非图神经网络基准模型相比,性能如何?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本文在节点级别和图级别表示学习方面进行了研究,并提出了朝着更强大的表示学习迈进的解决方案,目标是实现图的基础模型。


图在现实世界中广泛应用于表示关系,许多数据自然可以通过图来表示,如社交网络、蛋白质结构、分子和交易等。与具有特定自然顺序的图像和文本不同,图是无序的,并且具有排列不变性,这为学习良好的表示带来了显著的困难。图神经网络(GNNs)被提出并不断改进,用于图表示学习。本文在节点级别和图级别表示学习方面进行了研究,并提出了朝着更强大的表示学习迈进的解决方案,目标是实现图的基础模型。
在第一部分,我专注于节点级别的图表示学习,并解决一个关键问题——“表示过度平滑”。为了进一步理解图卷积网络(GCNs)的优势,我们探讨了神经网络与主成分分析(PCA)之间的关系。我们的研究表明,图正则化PCA的解与单个图卷积层的公式是相一致的。
在第二部分,我深入研究了图级别的表示学习。与多层感知机(MLPs)不同,MLPs是表格数据的通用函数近似器,而图神经网络(GNNs)具有有限的表达能力。我探讨了两种方法来增强GNN的表达能力:使用有根子图来提高局部结构意识;以及探索无序的高阶交互,以实现与有序交互相当的表达能力,同时在实际应用中获得更好的可扩展性。
在第三部分,我专注于图的生成模型。与需要标签来学习任务依赖表示的判别模型不同,生成模型在无监督表示学习方面表现出色。然而,图生成由于其无序性而面临独特的挑战,这要求一种与任何特定顺序无关的方法。为了解决这个问题,我首先研究了应用于类别数据的扩散模型,并提出简化并统一现有的离散时间和连续时间离散扩散。基于统一的离散扩散,我提出了一种基于部分顺序的扩散模型,将自回归方法与扩散模型相结合,用于图生成。该方法为图上的生成预训练奠定了基础。
在最后一部分,我探索了图表示学习的应用。具体而言,我研究了图级别异常检测(GLAD),该方法具有许多重要应用。由于GLAD研究较少,我建立了一个基于图神经网络的强基准模型“OCGIN”,一个包含数据集和许多非图神经网络基准的评估平台。我还发现并研究了一个名为“性能反转”的问题。随后,我设计了一个特定模型,用于检测普华永道的可疑会计交易,该任务需要处理带属性的图数据。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


OCGIN 的特点在于它能够有效地学习图的拓扑结构和节点属性,并将其用于异常检测。与传统的非图神经网络模型相比,OCGIN 在处理图数据时具有更强的表达能力和泛化能力,因此在图级别异常检测任务中表现更佳。具体性能对比可以参考论文中的实验结果部分。

简单来说,部分顺序扩散模型先用自回归方法定个大概的框架,再用扩散模型填充细节,有点像先画草稿再上色的感觉。这样做的好处是既能保证图的结构,又能利用扩散模型强大的生成能力,生成更合理的节点特征。

关于这个问题,论文中提到的部分顺序是指节点的生成顺序。自回归方法的思想是按照一定的顺序逐个生成节点,而扩散模型则是在噪声空间中逐步去噪,最终生成完整的图。结合这两种方法,可以利用自回归方法确定节点的生成顺序,然后利用扩散模型生成节点的特征,这样既可以保证生成的图结构合理,又可以利用扩散模型的生成能力。

“OCGIN”是一个基于图神经网络的异常检测模型,它在设计上考虑了图的结构信息和节点特征。与其他非图神经网络基准模型相比,“OCGIN”在大多数数据集上都取得了显著的性能提升,这表明了图神经网络在图级别异常检测任务中的优势。

这个问题可以理解为,在图卷积的过程中,节点特征不断被邻居节点的特征“平均”,导致最终所有节点的特征都变得非常相似。除了前面提到的方法,还可以考虑一些更高级的GNN架构,例如GraphSage或GAT,它们在聚合邻居信息时采用了不同的策略,可以有效缓解过度平滑问题。

过度平滑会导致节点表示难以区分,就像一堆橡皮泥揉来揉去,最后都变成一个颜色了。解决方法可以试试加点“佐料”,比如不同的聚合函数,或者加点“筋”,比如跳跃连接,让信息传递更直接。

“表示过度平滑”指的是在GNNs的深度增加时,节点的表示向量趋于相同,从而丧失了节点的区分性。可以尝试使用一些技巧,例如:正则化技术、增加跳跃连接、使用不同的聚合函数等。

OCGIN就像一个专门为图数据设计的“侦探”,它能更有效地捕捉图中的异常模式。相比其他“普通侦探”(非图神经网络模型),OCGIN的破案率更高,尤其是在复杂的图数据中。

这种结合方式可以理解为:自回归模型决定了“先画什么,后画什么”,而扩散模型决定了“怎么画”。优势在于既能利用自回归模型捕捉图结构中的依赖关系,又能利用扩散模型强大的生成能力,从而生成更符合真实分布的图。