GRAPHGPT-O:基于图结构与大模型的的多模态图像文本联合生成框架

介绍GRAPHGPT-O,一种新型多模态大语言模型框架,可从图结构数据中联合生成图像和文本,有效提高多模态数据处理能力。

原文标题:CVPR 2025|多模态图像生成!图结构×大模型强强联手!

原文作者:数据派THU

冷月清谈:

本文介绍了 GRAPHGPT-O,一种面向多模态属性图(MMAGs)的多模态大语言模型(MLLM)框架,旨在解决MLLM在处理图文数据时面临的挑战,例如图结构爆炸、非欧空间特性、模态层级依赖和推理顺序依赖。该框架通过引入PPR采样机制、图结构线性化或层级表示方法、融合Q-Former的层次对齐器以及适应多种生成策略的推理机制,实现了从图中联合生成图像和文本的能力。实验结果表明,GRAPHGPT-O在多个真实领域数据集上显著优于现有基线模型,尤其在艺术品和商品图谱等领域表现突出。该研究通过自适应图提示设计和专门的对齐技术,有效克服了与图拓扑和多模态属性集成相关的关键挑战,为多模态内容生成提供了一种新的解决方案。

怜星夜思:

1、文章中提到的PPR采样机制是如何缓解图规模爆炸问题的?除了PPR,还有没有其他图采样方法可以应用到这个场景?
2、GRAPHGPT-O模型中,图结构Q-Former的作用是什么?如果用GNN替代Q-Former,性能为什么会下降?
3、文章提到了顺序推理和并行推理两种生成策略,这两种策略分别适用于什么场景?有没有可能将二者结合起来,以获得更好的生成效果?

原文内容

源:多模态机器学习与大模型

本文共1300字,建议阅读5分钟

本文提出一种面向多模态属性图(MMAGs)的多模态大语言模型(MLLM)框架。


  • 论文链接:
    https://arxiv.org/pdf/2502.11925


简介


本文提出 GRAPHGPT-O,一种面向多模态属性图(MMAGs)的多模态大语言模型(MLLM)框架,支持从图中联合生成图像和文本。为解决图规模爆炸、图结构非欧几里得性质、模态层级依赖和推理顺序依赖等关键挑战,GRAPHGPT-O 引入了:PPR 采样机制,图结构线性化或层级表示方法,融合 Q-Former 的层次对齐器,适应多种生成策略的推理机制。该方法在多个真实领域数据集(如 ART500K 和 Amazon-Beauty)上实现了显著优于现有基线模型的性能。


研究动机


虽然MLLMs能处理图文输入,但现实中的图文数据常以图结构存在(如商品图谱、艺术品网络),包含节点关联(例如同作者、同风格),但 MLLMs 难以直接利用此类结构性信息。面临挑战包括:

(1) 图结构爆炸:邻居扩展导致上下文过长;

(2) 非欧空间:图无法直接序列化处理;

(3) 模态层级依赖:节点与子图间信息结构复杂;

(4) 推理依赖性:文本与图像生成顺序互相影响。


论文贡献


(1)提出了一种基于 PageRank 的个性化图采样方法来提取相关子图信息,从而有效缓解图大小爆炸问题。

(2)研究了图线性化的各种设计方法,使其非欧几里得性质适应顺序 MLLM 处理范式。

(3)构建了一个分层图对齐器,结合节点级模态融合 Q-Former 和图结构 Q-Former 来捕获 MMAG 中的分层模态依赖关系。

(4)探索了不同的推理策略,包括顺序和并行生成,以解决 MMAG 中跨模态的推理依赖关系。凭借自适应图提示设计和专门的对齐技术,GRAPHGPT-O 实现了 MMAG 中的有效理解和内容生成,克服了与图拓扑和多模态属性集成相关的关键挑战。


GRAPHGPT-O模型


图1给出了模型的整体框架。输入为一个多模态属性图  ,节点   同时具备文本   和图像  。目标是联合生成  ,即:


图 1. GRAPHGPT-O 的整体框架


给定多模态属性图 (MMAG) 中的目标节点,首先使用个性化 PageRank 进行邻居采样。然后,这些采样的邻居节点被输入到分层多模态对齐器 (Hierarchical Multimodal Aligner),该对齐器负责对齐文本、图像和图结构数据。节点的每个模态最初都经过编码,并通过多个自注意力层和交叉注意力层进行融合,以生成多模态节点 token。随后,这些 token 由图结构 Q-former 处理,最终作为多模态 LLM 的输入。


GRAPHGPT-O 框架主要由4个步骤组成,(1)将图信息引入 MLLM。(2)基于 PageRank 的个性化图采样策略,以应对图规模爆炸式增长的挑战。(3)图线性化策略,开发了一个分层图对齐器,以解决图的非欧几里得特性并捕捉 MMAG 中的分层模态依赖关系。(4)探讨不同的生成策略来管理跨模态的推理依赖关系。


PPR 采样——缓解图规模爆炸


使用 Personalized PageRank (PPR) 计算与目标节点相关的邻居:


  • PPR 传播方程:

图片
  • 邻居选择:

图片

图线性化与层级对齐——解决图结构输入问题


线性表示: 将邻居节点的文本/图像按顺序打包为序列输入:


图片


层级 Q-Former: 两级 Transformer 结构,对图进行深层次对齐:


  • 节点级 Q-Former:

    • 输入拼接:

  • 图片
    图片


    • 跨注意力提取核心表示:

      图片
    • 自注意力层:

  • 图结构 Q-Former:

    • 初始输入:

  • 图片
    图片
    图片


    • 输出融合:

    • 层级自注意力:

最终将图结构表示  输入 MLLM。


多模态生成优化-融合图、文、图像


  • 模态统一训练损失:

    图片
  • 图像生成(Stable Diffusion)损失:

    图片


推理机制设计——解决模态顺序依赖


提供两种推理方案:


(1)顺序推理


  • 文本先:

  • 图像先:


(2)并行推理


实验结果与分析


📊 数据集


  • ART500K:艺术品图谱(图像+标题+风格关系)

  • Amazon-Beauty / Amazon-Baby:商品图谱(图像+标题+共购关系)


📈 指标


  • CLIP-I2:生成图像质量(图像 vs GT)

  • CLIP-IT:图文对齐性

  • Perplexity:文本生成连贯性

  • KL-DV:生成节点与邻居分布的 KL 散度


📋 结果摘要(ART500K)



🧪 消融实验


  • 去除图结构 Q-Former 后 KL-DV 激增至 9.14;

  • 用 GNN 替代 Q-Former 后性能下降明显。



致谢作者!转载请注明出处!关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️  /欢迎投稿

编辑:于腾凯
校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

从实验结果来看,去除图结构Q-Former后KL散度激增,说明Q-Former对于保持生成节点与邻居分布的一致性至关重要。GNN可能更侧重于学习节点本身的特征表示,而忽略了跨模态的对齐和融合。Q-Former自带的query机制让它可以主动地去“寻找”不同模态之间的关联,这可能是GNN所欠缺的。

我感觉顺序推理更像人类的思考方式,先有一个初步的想法(文本),然后再将这个想法具象化(图像)。并行推理更像是一种“灵光一现”,直接蹦出一个图像和一个想法,然后再将它们拼凑在一起。结合的话,可以考虑用一个模型来预测生成顺序,然后根据预测结果选择不同的推理策略。

楼上说的雪球采样听起来不错!我补充一个思路,可以考虑使用社区发现算法,先把图划分成若干社区,然后在目标节点所在的社区内进行采样。这样可以保证采样到的节点都具有一定的相关性,也能减少计算量。

会不会是因为GNN的表达能力有限?Transformer架构的Q-Former在捕捉长距离依赖方面更有优势,而图结构中节点之间的关系可能非常复杂,需要更强的表达能力才能handle住。

PPR采样背后的逻辑是,它会根据节点与目标节点的相关性进行采样,只保留与目标节点最相关的邻居,避免了无差别地遍历整个图,从而限制了需要处理的节点数量,也就缓解了图规模爆炸问题。其他的采样方法,比如基于随机游走的采样(Random Walk Sampling),或者基于图神经网络的采样方法(Graph Neural Network based Sampling),可能也能在一定程度上缓解这个问题。但是效果可能不如PPR,具体的还需要实验验证。

看到这个PPR采样,让我想起了PageRank算法在网页搜索中的应用,感觉异曲同工啊!PPR的个性化体现在它会根据目标节点定制采样策略,只保留“重要”邻居,这招确实高。除了PPR,我还想到可以用“雪球采样”先粗略采样一部分,然后用GNN学习节点的embedding,再根据embedding的相似度进行筛选,感觉也能降低计算量。

顺序推理可能更适合对生成内容的一致性要求更高的场景,比如先生成文本描述,再根据文本生成对应的图像,这样可以保证图像内容与文本描述一致。并行推理可能更适合对生成效率要求更高的场景,可以同时生成图像和文本,但可能牺牲一定的质量。结合的话,可以考虑先用并行推理生成一个初步的结果,然后用顺序推理进行润色,或者使用某种机制来在两种模式之间动态切换。

感觉这两种策略的选择,也取决于具体的模态之间的依赖关系。如果文本对图像的约束更强,那就先生成文本;反之,如果图像能够更好地激发文本的创作,那就先生成图像。甚至可以引入一个“注意力机制”,让模型自己学习不同模态之间的依赖关系,从而自适应地选择推理策略。

文章里提到,图结构Q-Former用于对图进行深层次对齐,融合节点级和图结构的特征。如果用GNN替代,性能下降可能是因为GNN在处理这种复杂的模态交互时,不如Q-Former灵活。Q-Former中的query机制可以更好地提取和对齐不同模态的信息。