AAAI 2025 论文提出新基准GAR,揭示大型语言模型在组合关系推理能力上的不足和内部机制,为模型优化提供方向。
原文标题:AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
原文作者:数据派THU
冷月清谈:
研究发现,即使是最先进的LLM,在GAR测试中也存在不足,尤其是在推理步骤增加或复杂度提高时,正确率会明显下降。此外,模型普遍存在“组合性差距”,即能正确回答子问题,却无法组合答案得出最终结论。虽然模型规模的增加能在一定程度上提升性能,但“组合性差距”反而更明显。
为了探究模型内部的推理机制,研究者使用归因补丁方法,识别出模型中存在一组通用的核心回路和两类关键注意力头(True head 和 False head),它们分别对应抽象的“真”和“假”的概念。通过干预这些注意力头,可以显著提升模型在特定任务上的准确率。
这项研究揭示了LLM在CRR方面存在的缺陷和内部推理机制,为未来模型优化和基准测试设计提供了重要参考。
怜星夜思:
2、文章提到了人类在GAR任务上的准确率超过90%,这是否意味着人类的组合推理能力远超LLM?如果是这样,LLM未来有可能达到甚至超越人类的水平吗?
3、论文中提到的“True head”和“False head”很有意思,这是否意味着LLM内部也形成了类似人类“真”和“假”的概念?这对于理解LLM的认知机制有什么启示?
原文内容
来源:PaperWeekly本文约2600字,建议阅读5分钟
本文为你回答GPT 这样的大型语言模型(LLM)是否具备组合关系推理(CCR)能力。
人类拥有一种强大的能力,能够理解多个实体之间复杂的关系并基于这些关系进行推理,这被称为组合关系推理(Compositional Relational Reasoning, CRR)。这种能力不仅是智能的标志,也是我们应对日常问题和复杂任务的核心技能。那么,像 GPT 这样的大型语言模型(LLM)是否具备这种能力?它们又是如何在内部处理这种任务的?
为了回答这个问题,研究者开发了一个新的基准测试,称为广义关联回忆(Generalized Associative Recall, GAR),专门用来评估 LLM 在组合推理任务中的表现,并进一步研究模型如何解决这些任务。论文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京邮电大学和彩云科技合作完成。
论文链接:
https://arxiv.org/abs/2412.12841
项目链接:
https://github.com/Caiyun-AI/GAR
1、GAR基准测试
研究者注意到,目前大多数用于测试 LLM 的任务要么过于简单,只能用于可解释性分析,无法真实反映模型在复杂推理场景下的表现,要么过于复杂,不适合深入研究模型的内部机制。
因此,他们设计了 GAR,一个更加多样化和具有挑战性的基准测试。GAR 整合了多个经典任务(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通过不同的任务形式(如肯定 / 否定句、生成 / 分类任务)和难度等级,系统地考察模型的推理能力。
简单来讲(更多例子见下图 1 和图 2):
-
associate recall 就是从前文 “抄写”:前文说了 “小明有苹果”,后文再说 “小明有__”,就知道要填 “苹果”;
-
knowledge recall 就是记到 “脑子” 里的各种常识知识:苹果是一种__(水果),巴黎在__(法国)
-
IOI 就是排除(否定):【苹果、狗、苹果】哪个不是苹果?__(狗)
GAR 的特点是:
1. 挑战性足够高:即使是最先进的 LLM,在 GAR 任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。
2. 适合深入研究:GAR 任务相对简单的生成过程,使得研究者能够更好地追踪模型内部的推理机制。
2、现有模型的表现
通过对主流开源(如 Llama-2/3 7B/13B/33B/70B)和闭源模型(如 GPT-3.5/4)的测试发现:
-
任务难度显著影响表现:当任务的推理步骤或复杂度增加时,模型的正确率会明显下降。
-
组合性差距(Compositionality Gap):模型在回答任务的各个子问题时可能表现良好,但无法正确组合这些答案以得出最终结论。例如,模型能回答对 “【小明有苹果,小红有狗】小明有__(苹果)”(前文抄写),对 “苹果是一种__(水果)”(常识)和 “【小明、小红】里哪个不是小红?__(小明)”(否定排除)也毫无压力,但把它们组合起来:“【小明有苹果,小红有狗】小红没有一种__(水果)”,模型就很容易蒙圈(在不允许 CoT 的情况下)。
-
模型规模与性能:虽然更大的模型在一些任务上表现更好,但它们的 “组合性差距” 往往更明显,这表明增加模型规模并不能完全解决这个问题。
GAR 任务还有个很有趣的特点:尽管它对最先进的 LLM 都具有挑战性,它对人类来说却非常简单:研究者评估,在具备必要知识(如国家 - 首都关系)的情况下,人类完成任务的准确率超过 90%。并且通过实验表明,LLM 回答错误并不是因为缺少这些事实性知识。这揭示了 LLM 在组合关系推理上存在某些根本性缺陷。
3、模型内部的推理机制
为了更好地理解 LLM 如何解决 GAR 任务,研究者采用了归因补丁(attribution patching)的方法。这种技术可以帮助发现模型在推理过程中依赖的关键计算单元,特别是某些注意力头的作用。值得指出的是,这里无论任务难度、回路复杂度还是模型大小,都远超已有模型可解释性工作。研究发现:
1. 核心回路:Vicuna-33B 模型中存在一组通用的核心回路,能够被不同任务重复利用。
2. 注意力头的作用:研究者识别出两类关键注意力头(True head 和 False head),它们的激活状态分别表示抽象的 “真” 和 “假” 的概念。进一步的实验表明,这些头在不同任务和模型中都扮演了重要角色,是组合推理能力的基础。
研究者发现,无论哪种回路,从更高的层次看,都包含我们称之为 “relational loop” 的由注意力边组成的闭环。这和构造 GAR 任务时的关系环是一致的。研究者认为正是这些闭环的存在保证了可预测性。
4、通过干预关键注意力头提升LLM表现
注意到 True/False 头在图 4 的所有回路中都有出现并扮演了关键角色。为了验证 Vicuna 模型中的 True/False 头的通用性和有效性,并探讨其在不同模型规模上的一致性。
研究者选择了三个具有代表性的分类任务:由 GendersOfPersons 关系模式分别与 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三个关系模式组合作为数据源。
首先,利用 attribution patching 识别不同规模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 头。随后,在模型推理过程中对 True/False 头进行干预:当答案为 Yes/No 时,对 True/False 头施加干预,同时屏蔽 False/True 头,以观察其对模型判断的影响。
5、研究意义
这项研究首次明确指出了 LLMs 在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。这不仅加深了我们对 LLMs 工作原理的理解,也为模型改进提供了启发和洞见。例如:
-
优化注意力机制:通过改进关键注意力头的功能,可以显著提升模型的推理能力,例如研究团队的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在类似 GAR 任务上的表现启发而来的。
-
设计更具多样性的基准:在真实世界任务中测试和改进模型的组合推理表现。
参考文献