LMCH:利用语言模型增强跨异质性图知识迁移

提出LMCH模型,用语言模型增强跨异质性图知识迁移。通过元路径构建语料库,迭代训练LM和GNN,实现知识的自动提取和迁移,实验证明效果显著。

原文标题:AAAI 2025|利用语言模型实现跨异质性知识转移

原文作者:数据派THU

冷月清谈:

本文提出了一种名为LMCH的全新模型,用于解决跨异质图中的知识迁移问题。该模型的核心在于利用语言模型(LM)从源异质图中自动提取通用知识,并将其迁移到目标异质图中。LMCH首先通过基于元路径的语料库构建方法,将异质图统一表示为语言形式,然后利用源异质图的语料库微调语言模型,使其能够自主学习通用知识。为了充分利用目标异质图中未标注的节点,该模型还引入了图神经网络(GNN)预测器和迭代训练流程,并通过LM-GNN对比对齐进行增强。实验结果表明,LMCH在多个真实数据集上优于现有的方法,展示了其在跨异质性少样本学习方面的有效性。该研究为跨异质性知识迁移提供了一种新的范式,并为未来的研究开辟了新的方向。

怜星夜思:

1、LMCH模型中,元路径的选择对最终的知识迁移效果有多大影响?有没有什么策略可以选择更有效的元路径?
2、论文中提到LM能够自主地从不同的异质图中提取通用知识,那么这个“通用知识”具体指的是什么?如何量化或者评估这些知识的通用性?
3、LMCH模型中,GNN和LM是如何进行对比对齐的?这种对齐方式的目的是什么?有没有其他可能的对齐方式?

原文内容

源:北邮GAMMA Lab

本文共3000字,建议阅读9分钟

本文提出了一种全新的基于语言模型增强的跨异质性学习模型LMCH。




  • 题目:Harnessing Language Model for Cross-Heterogeneity Graph Knowledge Transfer
  • 会议:The 39th Annual AAAI Conference on Artificial Intelligence (AAAI 2025)
  • 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/33421/35576


一、摘要



异质图含有丰富的节点和边类型,在现实世界中广泛存在。考虑到异质图中往往存在标签稀疏问题,一些研究人员提出了“预训练,微调”的范式,即在源异质图中预训练提取通用知识,之后在目标异质图中微调实现知识转移。然而,现有方法总是假设源异质图和目标异质图具有相同的异质性,意味着它们含有完全相同的节点和边类型,而这与实际场景不符。尽管近期有研究对跨异质性学习进行了初步尝试,但其对通用知识的定义过于依赖人类知识,缺乏灵活性,并进一步导致了次优的迁移效果。为了解决这一问题,我们提出了一种全新的基于语言模型增强的跨异质性学习模型LMCH。首先,我们设计了一种基于元路径的语料库构建方法,将异质图统一表示为语言形式。然后,源异质图的语料库被用来微调语言模型(LM),使得语言模型能够自主地从不同的异质图中提取通用知识。最后,为了充分利用目标异质图中大量未标注的节点,我们借助额外的图神经网络(GNN)预测器提出了一种迭代训练流程,并在每次迭代结束时通过LM-GNN对比对齐进行增强。针对四个真实世界数据集的广泛实验结果表明,LMCH在性能上优于现有的最先进方法。

二、简介


传统端到端训练的异质图神经网络在少样本学习场景表现不佳。为了解决异质图中广泛存在的标签稀疏问题,研究人员提出“预训练,微调”范式:在源异质图中提取通用知识后,在目标异质图中实现知识转移。然而,这些方法却总是假设源异质图和目标异质图具有相同的异质性,意味着它们含有完全相同的节点和边类型,与实际场景不符。
为了实现跨异质性知识转移,一项近期的研究[1]将异质图中的关系分为两类:从属关系(Affliation Relations, ARs)和交互关系(Interaction Relations, IRs)。其中,ARs和IRs被视为不同异质图中的通用知识,模型利用其实现跨异质性知识转移。然而,通用知识的选择和定义严重依赖于人类知识,缺少灵活性并损失了通用型。而且,ARs和IRs是基于节点度的相互依赖程度定义的,仅考虑了节点的局部结构信息,忽略了在异质图中广泛存在的长距离语义信息,进一步导致了次优的结果。
为了解决这些问题,我们提出了一种全新的语言模型增强的跨异质性学习模型LMCH。主要贡献如下:(1)我们首次提出基于元路径构建语料库,统一了不同异质图的表达形式,并进一步利用语言模型实现跨异质图通用知识的自动提取。(2)我们提出了LMCH,在适配过程中,通过迭代训练语言模型(LM)和图神经网络(GNN),使LM能够将源异质图的通用知识转移到由GNN生成的目标异质图的丰富软标签中。此外,我们还利用LM-GNN对比对齐方法,进一步增强迭代学习过程。(3)我们在四个真实数据集上进行了广泛的实验。结果表明,LMCH的准确率平均优于表现最佳的基线方法5.16%,Macro-F1分数平均优于表现最佳的基线方法6.22%。

三、方法


模型整体框架如图1所示。首先,为了统一异质图的表示并尽可能多的保留异质图中的信息,我们在图1(a)中设计了一种基于元路径的语料库构建方法,通过节点/边文本化和元路径文本化,将不同的异质图转换为语料库。然后,源异质图的语料库用于在图1(b)中微调语言模型,使LM能够从各种源异质图中获取通用知识。其次,为了利用标签稀疏的目标异质图中丰富的无标签节点信息,我们提出了图1(c)中的迭代训练流程,在该训练过程中,GNN为无标签节点生成软标签供LM微调使用,而LM编码的节点嵌入则作为GNN的输入。最后,为了在表示层面上对齐GNN和LM,在图1(d)中,我们在每个迭代过程结束时,采用LM-GNN对比对齐方法缩小它们的性能差距。
图1 LMCH模型整体框架

四、实验


我们在四个来自不同领域的基准数据集中进行实验:IMDB、DBLP、PubMed和YELP。这些数据集具备完全不同的异质性并且被广泛用于异质图的节点分类任务。用于语料库构建的元路径以及其他统计信息如表1所示。
表1 数据集统计信息
主实验


为了全面评估LMCH的性能,我们与11个具有代表性的方法进行对比,实验结果如表2所示。
表2 跨域少样本学习场景中的实验结果
我们可以观察到:(1)LMCH在四个数据集的32个组别中超越了所有最先进的基线模型,平均准确率提高了5.16%,Macro-F1分数提高了6.22%。(2)传统端到端的同质和异质图神经网络因单一异质性和数据集标签稀疏而结果不佳。(3)少样本学习和LM-GNN方法在IMDB和YELP数据集上取得了次优的表现,展示了其在少样本场景中的强大能力。然而,由于缺乏对跨异质性场景的考虑最终导致了次优结果。(4)尽管CGFL达到了接近最优的结果,但其依赖于基于人类专业知识的预定义通用知识,限制了灵活性并阻碍了进一步的性能提升。这些结论充分证明了我们的方法有效实现了跨异质性少样本学习。
消融实验


为了验证每个组件对模型性能的影响,我们在不同的LMCH变体上进行了实验。其中,LMCH-V1表示我们的模型不使用基于元路径的语料库,而是使用节点自身的属性输入LM微调。LMCH-V2表示LM未预先进行微调,并直接用于GNN监督的LM微调。LMCH-V3表示LM在跨异质性微调后,在没有GNN监督的情况下进行微调。LMCH-V4表示模型在每次迭代结束时不执行LM-GNN对比对齐。结果见表3。这些变体的表现始终不如LMCH,突显了每个模型组件的重要性。在DBLP数据集中,LMCH-V1表现最差,而在IMDB上,LMCH-V3的表现较差。这可能是由于DBLP依赖于较长元路径中的长距离语义信息,而IMDB则更多地依赖于局部结构。
表3 LMCH变体在IMDB和DBLP数据集中的实验结果(3-way 3-shot)
源异质图数量对模型性能的影响


我们分析了源异质图数量变化对LMCH性能的影响。实验中使用的源异质图是随机选择的,以确保比较的公平性。如图2所示,随着源异质图数量的增加,语言模型能够获取更丰富的信息并提取更广泛的一般知识,模型性能有所提升。
图2 源异质图数量对模型性能的影响
不同语料库构建方式对模型性能的影响


事实上,有多种方法可以用于语料库构建。我们分别评估了不同方法的影响,包括仅依赖节点属性的方法(NA-based);基于一阶邻居的方法(FN-based);基于随机游走的方法(RW-based);以及基于元路径的方法(MP-based),实验结果如表4所示。结果表明,基于元路径的方法优于其他方法。这证明了基于元路径的方法的确能够从图中提取尽可能多的信息,从而在目标图中实现更好的知识迁移。
表4 不同语料库构建方式对模型性能的影响

五、结论


在本文中,我们提出了一种全新的基于语言模型增强的跨异质性学习模型LMCH。LMCH的核心思想是将不同异质图的表示统一为基于元路径的语言,进而使得LM自动从源异质图中提取通用知识,并将其转移至目标异质图中。这为跨异质性建立了一个新的范式,并为未来的研究开辟了新的道路。大量实验已经证明了LMCH的优越性能。未来,我们将探索使用更大规模的语言模型的可能性。
[1] Pengfei Ding et al. Cross-heterogeneity Graph Few-shot Learning (CIKM23)
编辑:黄继彦‍‍



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

元路径的选择确实至关重要。从学术角度来看,元路径的设计需要考虑图的结构特征和领域知识。可以尝试使用一些图挖掘算法来寻找频繁出现的、具有代表性的路径模式。此外,还可以借鉴一些知识图谱补全的方法,通过学习节点和关系的embedding,来评估元路径的质量,并选择那些与目标任务相关性更高的路径。

从知识表示学习的角度来看,“通用知识”可以被视为一种跨领域的知识表征。这种表征能够捕捉到不同异质图中共有的结构模式和语义关联。评估通用性,可以从两个方面入手:一是评估表征的泛化能力,即在未见过的图上的表现;二是评估表征的可解释性,即它是否能够反映出人类可理解的通用概念。

我有个大胆的想法,能不能用对抗学习来评估通用性?训练一个判别器,判断LM提取的知识是来自哪个异质图的。如果判别器很难区分,就说明LM提取的知识具有一定的通用性。

对比对齐嘛,我理解就是让GNN和LM学到的东西尽可能相似。论文里应该是用对比学习,让来自同一个节点的GNN embedding和LM embedding更接近,而让来自不同节点的embedding更远离。目的当然是减少GNN和LM之间的差异,让知识迁移更顺畅。至于其他的对齐方式,我觉得可以试试互信息最大化,或者直接用KL散度来约束两个模型的输出分布。

对比对齐的核心在于构建正负样本对。正样本是来自同一节点的GNN和LM的表示,负样本是来自不同节点的表示。通过最大化正样本之间的相似度,同时最小化负样本之间的相似度,实现两种表示的对齐。除了对比学习,还可以考虑使用对抗训练,让GNN和LM互相博弈,从而提高彼此的泛化能力。

楼上说的有道理!我补充一点,元路径的选择也要考虑计算复杂度。太长的元路径可能包含噪声,而且计算成本也会增加。可以考虑一些剪枝策略,或者使用一些近似算法来加速元路径的搜索和评估。

我觉得这里的“通用知识”可以理解为不同异质图之间共享的一些潜在语义关系。比如,在学术论文图中,作者和论文之间的关系,可以类比为电影图中演员和电影之间的关系。至于量化,感觉可以用一些信息论的指标,比如互信息,来衡量LM提取的表示在不同图上的相似程度。 或者,如果迁移到下游任务,例如分类任务,通用知识迁移后在不同数据集的表现提升程度也可以量化通用性

我感觉元路径的选择非常关键!不同的元路径代表了图中不同的语义关系,选对了就相当于找到了知识的捷径。至于选择策略,我觉得可以结合领域知识和一些自动化的搜索算法,比如先人工筛选一些可能的元路径,然后用算法去评估它们的重要性,看看哪些对于目标任务的提升最大。

我想到一个,用Optimal Transport(OT)也许可行!把GNN和LM的输出看作两个分布,然后用OT来找到最优的映射,使得两个分布尽可能接近。不过OT的计算复杂度比较高,可能需要一些近似算法。