ICML 2025:揭秘大语言模型注意力机制中的极大值与上下文理解的关键

ICML 2025研究表明,LLM注意力机制中Q和K的极大值对上下文理解至关重要,RoPE是主要影响因素。量化时需注意保护这些极大值。

原文标题:ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键

原文作者:机器之心

冷月清谈:

ICML 2025 的一项研究揭示了大型语言模型(LLMs)中注意力机制的一个重要现象:查询 (Q) 和键 (K) 表示中存在高度集中的极大值,而值 (V) 表示中没有。该现象在使用旋转位置编码 (RoPE) 的模型中普遍存在,包括 LLaMA、Qwen 和 Gemma 等,但在未使用 RoPE 的模型中(如 GPT-2 和 OPT)则不存在。研究发现,这些极大值对模型理解上下文知识至关重要,破坏这些极大值会导致模型在上下文理解任务上的性能灾难性下降,而在参数知识检索任务上的影响相对较小。此外,专门处理极大值的量化方法(如 AWQ 和 SmoothQuant)能更好地维持模型的上下文理解能力。研究还发现,RoPE 位置编码是导致极大值集中现象的原因,且这种现象从模型的早期层就开始显现。该研究为 LLM 的设计、优化和量化提供了重要启示。

怜星夜思:

1、文章提到 RoPE 是导致 Q 和 K 中出现极大值的原因,那么除了 RoPE 之外,是否还有其他位置编码方式也会导致类似的现象?如果有,它们背后的机制可能是什么?
2、研究中提到了破坏极大值会导致上下文理解能力下降,那么,是否存在一种方法,既可以保留这些极大值,又能避免它们带来的潜在问题,比如过拟合或泛化能力下降?
3、文章提到了AWQ和SmoothQuant等量化技术可以更好地保留上下文知识。那么,在实际应用中,我们应该如何选择合适的量化方案?是否需要针对不同的模型和任务进行定制化的量化策略?

原文内容


大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。


近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。


本研究由罗格斯大学张永锋教授的团队完成,一作为金明宇,罗格斯大学博士生,在 ACL、ICML、AAAINAACL、COLM、ICLR、EMNLP、COLING 等顶级会议上发表过论文。



  • 论文标题:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding

  • arXiv 链接:https://arxiv.org/pdf/2502.01563

  • 代码链接:https://github.com/MingyuJ666/Rope_with_LLM


研究亮点

极大值如何影响模型性能


当我们谈论大型语言模型的理解能力时,通常将其知识分为两类:参数知识(存储在模型权重中的事实和信息)和上下文知识(从当前输入文本中获取的信息)。本研究通过一系列精心设计的实验,揭示了自注意力模块中极大值的存在与上下文知识理解之间的关键联系。


四大核心发现


1. 极大值在 Q 和 K 中高度集中分布


研究发现,这些极大值在每个注意力头的特定区域高度集中。这一现象非常反常识,因为 LLM 内部每个注意力头的运算理论上应该是独立的,但这些极大值的分布却显示出惊人的一致性。研究团队通过可视化方法清晰地展示了这一分布特征,横跨多个层和头,这种规律性模式与传统认知形成鲜明对比。



更引人注目的是,这一极大值现象仅存在于使用 RoPE(旋转位置编码)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在这种模式。这一发现将极大值现象直接与位置编码机制建立了联系。


2. Q 和 K 中的极大值对理解上下文知识至关重要



通过设计「破坏性实验」,研究团队将极大值重置为平均值,观察模型性能变化。结果表明,这些极大值主要影响模型处理当前上下文窗口中的信息的能力,而非影响从参数中提取的知识。在需要上下文理解的任务上,破坏极大值会导致性能的灾难性下降。


例如,在「大海捞针」类型的任务中,模型需要从大量文本中检索特定信息。当极大值被破坏时,模型在此类任务上的表现几乎完全崩溃。这直接说明了极大值对上下文理解的关键作用。


相比之下,对于只需要参数知识的任务(如「中国首都是哪里」),破坏极大值对性能影响有限。这种对比鲜明的结果表明,极大值特别与上下文信息处理相关,而非参数知识检索。


3. 特定量化技术能更好地保存上下文知识理解能力



随着大型语言模型的普及,量化技术成为降低计算和存储需求的关键手段。然而,不同的量化方法对模型性能的影响各异。研究发现,专门处理极大值的量化方法(如 AWQ 和 SmoothQuant)能有效维持模型的上下文理解能力,而未特别处理极大值的方法则会导致性能明显下降(GMS8K 和 AQUA 数据集)。


这一发现为量化技术的设计和选择提供了重要指导,特别是对保留模型的上下文理解能力至关重要的应用场景。设计新的量化方法时应重点考虑保护 Q 和 K 中的大值,对于优先保持上下文理解能力的应用场景,AWQ 和 SmoothQuant 等方法更为合适。


4. 极大值集中现象由 RoPE 引起,并在早期层就已出现


研究通过深入分析发现,RoPE 位置编码使 Q 和 K 中的低频区域受位置信息影响较小,从而导致极大值集中现象。这种现象从模型的最初层就开始显现,并随着层数增加而变得更加明显。


由于 RoPE 只作用于 QK,而不作用于 V,这也解释了为什么只有 QK 存在极大值集中现象。这一发现不仅解释了极大值的来源,也揭示了 RoPE 在大型语言模型中的工作机制。并且我们检查了有 rope 的模型和没有 rope 的模型,结果如图所示,llama,qwen 都有集中的极大值;相反 gpt-2,jamba,opt 就没有。



实验结果

极大值对不同知识任务的差异化影响


研究团队设计了一系列实验,系统评估极大值对不同类型知识任务的影响。结果显示出明显的差异化效应:


A. 参数知识检索任务的韧性


当大值被破坏时:


  1. 城市类任务仍然保持 76%-88% 的准确率,仅下降 15-20%

  2. 体育、艺术和技术类别任务保持在 65%-75% 的表现

  3. 名人类别表现尤其稳定,各模型均保持 70% 以上的准确率


这些结果表明,参数知识检索主要依赖于模型权重中存储的知识,受极大值破坏的影响相对较小。


B. 上下文知识理解任务的灾难性下降


相比之下,依赖上下文理解的任务在极大值被破坏后表现灾难性下降:


1. 数学推理任务出现严重退化


  • GSM8K: 从 81.30% 降至 15.10%

  • Llama3-8B: 从 76.90% 降至 4.00%

  • Qwen2.5-7B: 从 86.60% 降至 16.10%


2. 密钥检索任务 (Passkey Retrieval) 准确率从 100% 直接崩溃至接近 0%

3. IMDB 情感分析从 94% 以上下降至个位数


    这些对比鲜明的结果强有力地证明了极大值在上下文知识理解中的关键作用。


    C. 非大值破坏的对照实验


    为验证研究发现的可靠性,研究团队还设计了对照实验:当仅破坏非极大值部分时,所有任务的表现保持稳定,变化通常小于 ±1%。这进一步确认了极大值在上下文知识理解中的特殊重要性。


    研究意义与影响


    这项研究首次揭示了大型语言模型内部自注意力机制中极大值的存在及其功能,为理解模型如何处理上下文信息提供了新视角。研究结果对 LLM 的设计、优化和量化都具有重要启示:


    1. 模型设计方面:突显了位置编码机制(尤其是 RoPE)对模型理解上下文能力的影响,为未来模型架构设计提供了新思路。

    2. 模型优化方面:识别出极大值是上下文理解的关键组件,为针对性地提升模型上下文理解能力提供了可能路径。

    3. 模型量化方面:强调了保护极大值在模型压缩过程中的重要性,为开发更高效的量化方法提供了方向。


    未来方向


    该研究打开了多个值得进一步探索的方向:


    1. 探索是否可以通过特殊设计增强或调整极大值分布,从而提升模型的上下文理解能力。

    2. 研究极大值现象在不同架构、不同规模模型中的普遍性和特异性。

    3. 设计更有针对性的量化方法,专门保护与上下文理解相关的极大值。

    4. 探索极大值与模型其他特性(如对抗稳健性、推理能力等)之间的潜在联系。


    这项研究不仅加深了我们对大型语言模型内部工作机制的理解,也为未来更高效、更强大的模型开发铺平了道路。通过揭示极大值的关键作用,研究者们为我们提供了解锁大语言模型上下文理解能力的一把新钥匙。


    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:[email protected]

    Hmm,这个问题很有趣!我觉得可以试试正则化的方法。比如,可以在训练过程中加入一个惩罚项,限制Q和K中极大值的绝对大小,避免它们过于极端,同时又能保留它们携带的关键信息。这就像给模型戴上一个“紧箍咒”,让它在理解上下文的同时,不至于走火入魔。

    学术角度来分析,RoPE 通过旋转操作引入位置信息,本质上是在频域上对特征进行调制。其他位置编码如果也能在频域上产生类似的能量集中效应,或许也能观察到极大值现象。例如,某些基于三角函数的位置编码,如果其频率设置不当,可能会导致特定位置的信息被过度强调。

    从工程角度来看,选择量化方案需要trade-off。AWQ和SmoothQuant在保留上下文理解能力方面表现出色,但这通常以更高的计算复杂度为代价。在资源受限的场景下,可以考虑混合精度量化,即对Q和K采用较高精度,对V采用较低精度,以在性能和效率之间取得平衡。

    我有个大胆的想法:能不能利用对抗训练来增强模型的鲁棒性?通过生成一些对抗样本,专门攻击Q和K中的极大值,迫使模型学习更加稳健的特征表示。这样,即使极大值受到干扰,模型也能保持较好的上下文理解能力。不过,这需要仔细设计对抗样本的生成策略。

    选量化方案就像选对象,得看适不适合!AWQ和SmoothQuant就像是“高富帅”,效果好,但可能计算量大。如果你的设备算力有限,或者对速度要求很高,可能就需要考虑一些更轻量级的量化方案。当然,最理想的情况是能针对自己的模型和任务,定制一套专属的量化策略,就像私人定制一样,才能发挥最大效果。

    文章里提到了RoPE是“罪魁祸首”,但其他位置编码方式会不会也有类似效果呢?我觉得完全有可能!可能有些位置编码在特定频率上会放大某些token的重要性,从而形成类似的“极大值”现象。背后的机制可能和RoPE类似,也是通过某种方式扭曲或放大特定位置的信息,最终体现在Q和K的数值分布上。

    从信息论的角度来看,极大值携带了重要的上下文信息,直接去除肯定会造成信息损失。或许可以考虑一种自适应的缩放方法,根据输入文本的特性动态调整极大值的权重。例如,对于信息密度较高的文本,可以适当降低极大值的权重,以防止过拟合。

    我觉得可以建立一个量化方案的评估体系。首先,定义一系列评估指标,包括模型精度、推理速度、内存占用等。然后,针对不同的量化方案,在验证集上进行测试,并根据评估结果选择最优方案。这个过程可能需要一些实验和调优,但可以保证选择的量化方案最适合特定模型和任务。

    我猜想,会不会是和位置编码的稀疏性有关?RoPE可能产生了一种稀疏的位置编码,使得重要的位置信息更加突出,从而在Q和K中形成极大值。如果其他位置编码也能产生类似的效果,那也很可能产生类似现象。这方面挺值得研究一下的。