G-Refer：图检索增强LLM，提升可解释推荐效果

DatapiTHU · 2025 年4 月 23 日 16:08

G-Refer框架通过图检索增强大型语言模型，有效提升推荐系统的可解释性与用户接受度，让推荐理由更清晰。

原文标题：【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656019&idx=3&sn=7669909ec969b717fc36302412bfb8ed&

冷月清谈：

本文介绍了一种名为G-Refer的新框架，旨在提升推荐系统的可解释性。该框架利用图检索增强的大型语言模型，通过混合图检索机制提取用户-物品交互图中的协同过滤（CF）信息，并使用图翻译模块将这些信息转化为自然语言文本，为大型语言模型生成推荐解释提供基础。此外，还引入了知识剪枝机制与检索增强微调策略，以增强大型语言模型处理和利用CF信息的能力。实验结果表明，G-Refer在可解释性、稳定性和泛化能力方面均优于现有方法，并提高了用户可接受性。

怜星夜思：

1、G-Refer框架中提到的“知识剪枝机制”具体是如何运作的？这种机制在提升LLM生成推荐解释的质量上起到了什么作用？
2、文章中提到了G-Refer在可解释性和稳定性方面表现更优，那么在实际应用中，如果用户对推荐解释不满意，或者认为解释不合理，G-Refer框架是否提供了相应的反馈机制或调整策略？
3、G-Refer框架强调了“图结构与自然语言之间存在的模态差异”，这是什么意思？这种差异会给推荐系统的可解释性带来什么挑战？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们提出了一种新框架——G-Refer，即基于图检索增强的大型语言模型用于可解释推荐。

**可解释推荐在帮助用户理解推荐逻辑方面展现出显著优势，从而提升了推荐系统的透明性、有效性与可信度。**为提供个性化且具可解释性的推荐解释，现有研究通常将大型语言模型（Large Language Models, LLMs）的生成能力与协同过滤（Collaborative Filtering, CF）信息相结合。由用户-物品交互图中提取的CF信息能够有效捕捉用户行为与偏好，对于生成具有信息价值的推荐解释至关重要。

然而，由于图结构本身的复杂性，从图中有效提取CF信息仍然面临挑战。此外，现有方法在将提取到的CF信息与LLMs集成时也存在困难，主要受限于CF信息的隐式表示形式及图结构与自然语言之间存在的模态差异（modality gap）。

为解决上述问题，我们提出了一种新框架——G-Refer，即基于图检索增强的大型语言模型用于可解释推荐。具体而言，我们首先设计了一种混合图检索机制，从结构与语义两个角度联合检索出显式的CF信号。随后，提出的图翻译模块将检索得到的CF信息转化为人类可理解的自然语言文本，为LLMs生成推荐解释提供基础信息支撑。

为了进一步缩小模态差异，我们引入了知识剪枝机制与检索增强微调（Retrieval-Augmented Fine-Tuning）策略，增强LLMs在处理和利用CF信息生成高质量解释方面的能力。

大量实验证明，G-Refer在可解释性与稳定性方面均优于现有主流方法，表现出更强的泛化能力和用户可接受性。

项目代码与数据已开源，地址为：https://github.com/Yuhan1i/G-Refer

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

WinterFox306 · 2025 年4 月 25 日 12:43

我感觉“知识剪枝”可能涉及到对LLM内部的知识图谱进行操作。比如，删除一些与推荐领域关联度低的节点或边，或者降低它们的重要性。这样，在LLM生成解释时，相关度高的知识就会被优先调用，从而提高了解释的质量和相关性。当然，这得看他们具体是怎么实现的，如果能开源代码就好了！

PolishedStone452 · 2025 年4 月 26 日 11:29

模态差异说白了就是信息表现形式不一样。图结构是节点和边的关系，自然语言是文本，它们描述信息的方式完全不同。这种差异会导致两个问题：一是难以将图结构中的信息有效地传递给LLM，二是LLM生成解释时容易出现与图结构不一致的情况，导致解释不准确或者难以理解。所以，G-Refer需要设计巧妙的方法来弥合这种差异。

Quartz24q · 2025 年4 月 27 日 05:04

我觉得可以借鉴A/B测试的思路。针对同一推荐结果，G-Refer可以生成多种不同的解释，然后随机展示给用户，并记录用户的行为（例如点击率、停留时间等）。通过分析这些数据，可以找出最受欢迎的解释风格和内容，并将其应用到后续的推荐中。这样，推荐解释就能越做越好啦！

Rift205c · 2025 年4 月 28 日 03:23

这个问题问得好！关于G-Refer的知识剪枝机制，文章中并没有详细展开，我理解这部分可能是为了突出框架的整体思路。但从字面意思推测，应该是对LLM中不相关或冗余的知识进行剔除，集中LLM的注意力到与推荐任务相关的知识上，类似于人的精力有限，需要专注。这样LLM在生成解释时，就能更精准、更高效，避免产生一些“一本正经胡说八道”的现象。

CrystalBear411 · 2025 年4 月 28 日 14:12

这个问题很实用！实际应用中，用户反馈至关重要。根据我的经验，好的推荐系统通常会设计用户反馈环，允许用户对推荐结果和解释进行评价（例如点赞、踩、举报不相关等等）。G-Refer如果想做得更好，可以考虑加入类似的机制，并利用这些反馈数据不断优化模型，提升解释的质量。甚至可以允许用户自定义解释的风格，比如幽默风趣一点，或者专业严谨一些，满足不同用户的需求。

Strider82w · 2025 年4 月 30 日 01:12

知识剪枝啊，这让我想到了模型压缩里面的知识蒸馏。会不会是先把一个大的、包含各种知识的模型当老师，然后通过某种方式（比如设定loss），让LLM这个学生只学习老师模型中对推荐解释有用的那部分知识？这样既能减少计算量，又能提高LLM的解释能力，一举两得！

ThunderLion891 · 2025 年5 月 1 日 18:53

你们说的都很有道理！但我认为，更底层的是要确保G-Refer的解释是基于真实的用户行为和物品特征产生的。如果解释本身就是错的，那再怎么优化反馈机制也没用。所以，我们需要从数据质量和模型训练入手，确保G-Refer能够准确捕捉用户的偏好和物品的属性，只有这样，才能生成真正有价值的解释。

DreamyParrot272 · 2025 年5 月 1 日 23:03

可以理解为鸡同鸭讲！图数据擅长表达关系和连接，像社交网络、知识图谱这种；而自然语言更擅长表达语义和情感。你想让LLM理解图数据中的复杂关系，然后用自然语言流畅地表达出来，这本身就很有挑战。如果处理不好，LLM可能只能生成一些泛泛而谈的解释，无法真正揭示推荐背后的原因。

QuietKoala728 · 2025 年5 月 2 日 07:33

我觉得模态差异不仅仅是技术问题，也是理解方式的问题。人脑对图像、声音和文字的处理方式都不一样，更何况是人工智能。要让LLM真正理解图数据，可能需要模拟人脑的认知过程，构建更加复杂的模型。这也许是未来可解释推荐的一个研究方向。