AAAI 2025：揭秘Transformer的组合关系推理能力

DatapiTHU · 2025 年2 月 21 日 09:29

AAAI 2025 论文提出新基准GAR，揭示大型语言模型在组合关系推理能力上的不足和内部机制，为模型优化提供方向。

原文标题：AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652849&idx=1&sn=7d0582075f4dbd33bedfa633f6e7c8cd&

冷月清谈：

大型语言模型(LLM)的组合关系推理(CRR)能力一直备受关注。本文介绍一篇AAAI 2025论文，该论文提出了一种名为广义关联回忆(GAR)的基准测试，用于评估LLM的CRR能力。GAR测试整合了多种经典任务，并通过不同形式和难度等级，系统地考察模型的推理能力。

研究发现，即使是最先进的LLM，在GAR测试中也存在不足，尤其是在推理步骤增加或复杂度提高时，正确率会明显下降。此外，模型普遍存在“组合性差距”，即能正确回答子问题，却无法组合答案得出最终结论。虽然模型规模的增加能在一定程度上提升性能，但“组合性差距”反而更明显。

为了探究模型内部的推理机制，研究者使用归因补丁方法，识别出模型中存在一组通用的核心回路和两类关键注意力头（True head 和 False head），它们分别对应抽象的“真”和“假”的概念。通过干预这些注意力头，可以显著提升模型在特定任务上的准确率。

这项研究揭示了LLM在CRR方面存在的缺陷和内部推理机制，为未来模型优化和基准测试设计提供了重要参考。

怜星夜思：

1、虽然论文中提到了LLM的"组合性差距"，但我感觉这更像是程序员常说的"bug"，而不是真正的能力缺陷。大家觉得这种"组合性差距"是可以通过优化模型结构或训练方法来弥补的，还是LLM本身的架构限制？
2、文章提到了人类在GAR任务上的准确率超过90%，这是否意味着人类的组合推理能力远超LLM？如果是这样，LLM未来有可能达到甚至超越人类的水平吗？
3、论文中提到的“True head”和“False head”很有意思，这是否意味着LLM内部也形成了类似人类“真”和“假”的概念？这对于理解LLM的认知机制有什么启示？

原文内容

来源：PaperWeekly
本文约2600字，建议阅读5分钟
本文为你回答GPT 这样的大型语言模型（LLM）是否具备组合关系推理（CCR）能力。

人类拥有一种强大的能力，能够理解多个实体之间复杂的关系并基于这些关系进行推理，这被称为组合关系推理（Compositional Relational Reasoning, CRR）。这种能力不仅是智能的标志，也是我们应对日常问题和复杂任务的核心技能。那么，像 GPT 这样的大型语言模型（LLM）是否具备这种能力？它们又是如何在内部处理这种任务的？

为了回答这个问题，研究者开发了一个新的基准测试，称为广义关联回忆（Generalized Associative Recall, GAR），专门用来评估 LLM 在组合推理任务中的表现，并进一步研究模型如何解决这些任务。论文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京邮电大学和彩云科技合作完成。

论文链接：

https://arxiv.org/abs/2412.12841

项目链接：

https://github.com/Caiyun-AI/GAR

1、GAR基准测试

研究者注意到，目前大多数用于测试 LLM 的任务要么过于简单，只能用于可解释性分析，无法真实反映模型在复杂推理场景下的表现，要么过于复杂，不适合深入研究模型的内部机制。

因此，他们设计了 GAR，一个更加多样化和具有挑战性的基准测试。GAR 整合了多个经典任务（如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等），并通过不同的任务形式（如肯定 / 否定句、生成 / 分类任务）和难度等级，系统地考察模型的推理能力。

简单来讲（更多例子见下图 1 和图 2）：

associate recall 就是从前文 “抄写”：前文说了 “小明有苹果”，后文再说 “小明有__”，就知道要填 “苹果”；
knowledge recall 就是记到 “脑子” 里的各种常识知识：苹果是一种__（水果），巴黎在__（法国）
IOI 就是排除（否定）：【苹果、狗、苹果】哪个不是苹果？__（狗）

GAR 的特点是：

1. 挑战性足够高：即使是最先进的 LLM，在 GAR 任务上的表现也并不理想，暴露了它们在组合推理能力上的缺陷。

2. 适合深入研究：GAR 任务相对简单的生成过程，使得研究者能够更好地追踪模型内部的推理机制。

▲ 图1. 广义关联回忆（Generalized Associative Recall, GAR）任务构建框架。GAR 任务的设计流程包括三个步骤：选择关系模式（如 “same” 或 “kindOf”）、采样数据构建关系环（结合语义与语法关系）以及生成语句并引入语义和句法变体（如否定形式或主宾交换），图中左中右部分分别展示了关系环的构建、任务数据的生成与语句的多样化处理，体现了 GAR 在任务灵活性和复杂度上的优势

▲ 图2. GAR 任务示例。任务分为两大类：生成式（填空题，补全最后一个词）和判别式（判断题，回答 Yes 或 No）

2、现有模型的表现

通过对主流开源（如 Llama-2/3 7B/13B/33B/70B）和闭源模型（如 GPT-3.5/4）的测试发现：

任务难度显著影响表现：当任务的推理步骤或复杂度增加时，模型的正确率会明显下降。
组合性差距（Compositionality Gap）：模型在回答任务的各个子问题时可能表现良好，但无法正确组合这些答案以得出最终结论。例如，模型能回答对 “【小明有苹果，小红有狗】小明有__（苹果）”（前文抄写），对 “苹果是一种__（水果）”（常识）和 “【小明、小红】里哪个不是小红？__（小明）”（否定排除）也毫无压力，但把它们组合起来：“【小明有苹果，小红有狗】小红没有一种__（水果）”，模型就很容易蒙圈（在不允许 CoT 的情况下）。
模型规模与性能：虽然更大的模型在一些任务上表现更好，但它们的 “组合性差距” 往往更明显，这表明增加模型规模并不能完全解决这个问题。

▲ 图3. (a) 不同 LLM 在 GAR 上的表现。本图比较了生成任务（Gen.）和分类任务（Cls.）的平均准确率和正确答案的预测概率，随着模型规模增大，准确率和答案概率均呈正相关增长

▲ 图3. (b 左) GPT-4 和 Vicuna-33B 在不同难度的生成式任务上的表现，通过增加非相同语义关系和引入否定语义变体调整任务难度；(c 中) 组合性差距随模型规模的变化， Llama 系列模型随规模增大而表现出更大的组合性差距，反映出 LLM 在组合关系推理中的不足；(d 右) 语法变化差距随模型规模的变化，句法变体对模型性能影响较小，表明模型对语法变化的敏感性较低

GAR 任务还有个很有趣的特点：尽管它对最先进的 LLM 都具有挑战性，它对人类来说却非常简单：研究者评估，在具备必要知识（如国家 - 首都关系）的情况下，人类完成任务的准确率超过 90%。并且通过实验表明，LLM 回答错误并不是因为缺少这些事实性知识。这揭示了 LLM 在组合关系推理上存在某些根本性缺陷。

3、模型内部的推理机制

为了更好地理解 LLM 如何解决 GAR 任务，研究者采用了归因补丁（attribution patching）的方法。这种技术可以帮助发现模型在推理过程中依赖的关键计算单元，特别是某些注意力头的作用。值得指出的是，这里无论任务难度、回路复杂度还是模型大小，都远超已有模型可解释性工作。研究发现：

1. 核心回路：Vicuna-33B 模型中存在一组通用的核心回路，能够被不同任务重复利用。

2. 注意力头的作用：研究者识别出两类关键注意力头（True head 和 False head），它们的激活状态分别表示抽象的 “真” 和 “假” 的概念。进一步的实验表明，这些头在不同任务和模型中都扮演了重要角色，是组合推理能力的基础。

▲ 图4. (a左) True head子回路 (b右) False head子回路

▲ 图4. (c) 判别回路

▲ 图4. (d) 肯定式生成回路

▲ 图4. (e) 否定式生成回路

研究者发现，无论哪种回路，从更高的层次看，都包含我们称之为 “relational loop” 的由注意力边组成的闭环。这和构造 GAR 任务时的关系环是一致的。研究者认为正是这些闭环的存在保证了可预测性。

4、通过干预关键注意力头提升LLM表现

注意到 True/False 头在图 4 的所有回路中都有出现并扮演了关键角色。为了验证 Vicuna 模型中的 True/False 头的通用性和有效性，并探讨其在不同模型规模上的一致性。

研究者选择了三个具有代表性的分类任务：由 GendersOfPersons 关系模式分别与 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三个关系模式组合作为数据源。

首先，利用 attribution patching 识别不同规模的 Vicuna 模型（Vicuna-7B/13B/33B）的 True/False 头。随后，在模型推理过程中对 True/False 头进行干预：当答案为 Yes/No 时，对 True/False 头施加干预，同时屏蔽 False/True 头，以观察其对模型判断的影响。

▲ 图5. (a 左) 干预 Vicuna-7B 的 True / False heads 提升判别任务的准确率，干预后模型准确率分别提高了 17%/14%/6%，证明 True/False 头在各个模型中均表现出一致的效果；(b 右) True / False heads 的激活区分真 / 假陈述，通过可视化 True 和 False 头的激活值，发现它们有效地区分了真假语句。这表明，True/False 头编码了真假概念，并在 GAR 任务中起到了判断语句真伪的关键作用

5、研究意义

这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷，并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解，也为模型改进提供了启发和洞见。例如：

优化注意力机制：通过改进关键注意力头的功能，可以显著提升模型的推理能力，例如研究团队的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在类似 GAR 任务上的表现启发而来的。
设计更具多样性的基准：在真实世界任务中测试和改进模型的组合推理表现。

参考文献

[1] Da Xiao 1 Qingye Meng 2 Shengping Li 2 Xingyuan Yuan. Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

RadiantButterfly764 · 2025 年3 月 4 日 16:10

我比较乐观，我觉得LLM未来有可能在某些特定领域的组合推理任务上超越人类，比如复杂的科学计算或数据分析。但在需要常识、情感和价值判断的任务上，人类的优势可能更难被取代。

RedFox202 · 2025 年3 月 5 日 04:53

我觉得这个问题可以从两个方面来看。一方面，优化模型结构和训练方法肯定会有帮助，就像程序debug一样，可以修复一些已知的bug，提高模型在特定任务上的表现。但另一方面，LLM的架构本身可能就决定了它在处理组合性问题上的上限。就像一辆自行车，你再怎么改进它，它也变不成汽车。

Beacon26j · 2025 年3 月 5 日 15:56

人类在GAR任务上的高准确率确实体现了我们在组合推理方面的优势，但这并不意味着LLM永远无法达到或超越人类。就像AlphaGo一样，一开始也被认为不可能战胜人类顶尖棋手，但最终却做到了。LLM的潜力巨大，未来的发展或许会给我们带来惊喜。

VioletRaven051 · 2025 年3 月 7 日 08:25

关于“组合性差距”是否能弥补，我觉得更偏向于架构限制。目前的LLM更像是强大的模式匹配机器，缺乏真正的逻辑推理能力。就好比鹦鹉学舌，它能说出复杂的句子，但并不理解句子的含义。要弥补这个差距，可能需要更根本性的架构变革。

WhisperingPeacock073 · 2025 年3 月 8 日 09:56

我觉得LLM和人类的推理方式可能存在根本性差异。人类的推理基于理解和逻辑，而LLM更像是基于统计和模式匹配。即使LLM在某些任务上超越了人类，也未必代表它真的具备了与人类相同的推理能力。

SilverWolf359 · 2025 年3 月 10 日 03:50

我同意楼上的观点，这就像我们教孩子数学题一样，即使孩子掌握了单个的加减法，也未必能理解复杂的应用题。LLM也类似，它可能学会了各个部分的知识，但缺乏将它们组合起来进行推理的能力。这可能需要在模型中引入更强的逻辑推理模块，或者借鉴人类认知的机制。

SummerSun956 · 2025 年3 月 9 日 16:01

“True head”和“False head”的发现确实很有意思，但这是否意味着LLM形成了类似人类的“真”和“假”概念，还需要更多研究。目前看来，这些注意力头更像是模型学习到的某种模式识别机制，而不是真正的逻辑推理。但这为我们理解LLM的认知机制提供了一个新的视角。

Cipher409q · 2025 年3 月 8 日 20:58

我觉得可以把“True head”和“False head”理解为模型内部的“判断开关”，它们根据输入信息激活不同的回路，从而得出最终的判断。这有点像人类大脑中的神经元，通过不同的连接和激活模式来处理信息。

MidnightOwl519 · 2025 年3 月 10 日 09:26

我比较谨慎，我觉得用“真”和“假”这样的概念来描述LLM的内部机制可能不够准确。这容易让人误以为LLM具备了人类的意识和逻辑推理能力。更准确的说法可能是，这些注意力头代表了模型学习到的某种概率分布，用于判断输入信息的真伪。