MIT提出Attention Matching:线性回归破解大模型上下文瓶颈

MIT提出Attention Matching方法,用线性回归破解大模型上下文瓶颈,压缩速度提升两个数量级,为长周期计算和持续推理任务奠定基础。

原文标题:大模型上下文卡壳?MIT 用线性回归轻松破局

原文作者:数据派THU

冷月清谈:

MIT 团队提出了 Attention Matching (AM) 方法,用线性回归破解大模型上下文瓶颈问题。该方法通过构建压缩键值对来复刻原始注意力行为,将匹配问题分解为可高效求解的闭式子任务,避免了缓慢的梯度下降。AM 方法包含三个步骤:构建参考查询、键选择与偏置拟合、值拟合,全部采用线性代数方法求解。实验结果表明,该方法在保持与 Cartridges 方案相近的压缩率和精度的同时,将压缩时间缩短了两个数量级。此外,研究还发现非均匀压缩策略和摘要叠加注意力匹配可以进一步提升压缩效果。Attention Matching 方法适用于资源受限环境下的长周期计算和持续推理任务。

怜星夜思:

1、Attention Matching 方法中,为什么能够用线性回归来解决 KV 缓存的压缩问题?这种方法的本质是什么?和其他的KV缓存压缩方法相比有什么优势?
2、文章中提到非均匀压缩策略,不同注意力头对KV容量的敏感度差异巨大,那么,在实际应用中,如何确定哪些注意力头对KV容量更敏感,应该分配更多的KV预算给它们?
3、文章最后提到了摘要叠加注意力匹配可以实现更高的压缩率,但同时也意味着会损失一定的细节信息,在实际应用中,应该如何权衡压缩率和信息损失?有哪些场景更适合采用这种极限压缩方案?

原文内容

图片
本文约2400字,建议阅读5分钟
本文介绍了 MIT 团队的 Attention Matching 方法,用线性回归破解大模型上下文瓶颈。


突破大模型无限上下文瓶颈的核心解法是什么?MIT 团队给出的答案出乎意料的朴素:线性回归。


尽管挑选核心键(Key)仍需依赖启发式或贪心搜索,但最耗时的特征拟合已被 MIT 的最新研究彻底转化为经典的线性回归问题。


内存已经成为现代语言模型中的关键瓶颈。在处理推理、多轮对话或长周期代码生成等任务时,模型必须保留所有历史 Token 的键值对(KV)缓存。


在长上下文场景下,KV 缓存会占用大量显存。传统的上下文压缩方案,如 Token 丢弃或合并,在面临高压缩率时性能下降迅速。


近期提出的 Cartridges 方案证明了在隐空间内训练高压缩比 KV 缓存的可行性,能够在极大程度上保持全上下文的性能。


然而,其端到端梯度优化的成本极高,单次压缩通常需要数个 GPU 小时。


为此,MIT 团队在最新论文 Fast KV Compaction via Attention Matching 中提供了一种全新范式。


研究团队回归注意力机制的本质,通过构建压缩键值对来复刻原始注意力行为。该匹配问题被巧妙分解为多个可高效求解的闭式子任务,彻底避开了缓慢的梯度下降。


该方法在保持等同于 Cartridges 压缩率和精度的同时,将压缩时间缩短了两个数量级。


论文标题:

Fast KV Compaction via Attention Matching

论文链接:

https://arxiv.org/pdf/2602.16284

代码链接:

https://github.com/adamzweiger/compaction


1、理论重构:混合恒等式与注意力匹配


假设我们需要压缩上下文中长度为   的 Token 序列,其对应的原始键和值为  。目标是找到更短的压缩键值对  ,其中 


要实现无损拼接,压缩后的 KV 块必须能够与未知的未来 Token(设为  )完美融合。


研究团队在附录中给出了一个关键的混合恒等式,拼接注意力块的最终输出,实际上是各个局部注意力输出的混合,其混合权重由各自的注意力质量(Attention Mass)决定。



基于上述推导,只要在给定的参考查询集上,让压缩后的 KV 块满足以下两个条件,就能保证其在拼接任意新内容时,表现出高度一致的注意力行为:


匹配局部注意力输出:



匹配注意力质量:



这里引入了一个核心的逐 Token 标量偏置  。由于物理长度缩短,仅靠   是无法实现精确的质量匹配的。


偏置项   作为乘性权重,使被保留下来的关键 Token 能够代表多个已被丢弃 Token 的质量总和。


引入该偏置的内存开销极低(仅增加   的系数),且对注意力机制的运行时间几乎零影响。


2、极速压缩的工程实现:无需梯度的三步走


联合优化   在计算上极其困难。研究团队将其拆解为按顺序执行的三个步骤,全部采用线性代数方法求解。


步骤一:构建参考查询


算法首先需要一组查询向量   作为优化目标。研究采用了 Repeat-prefill 和 Self-study 两种机制,提示模型针对当前上下文生成对话以拓宽查询分布。


为了缓解逐层压缩引发的查询分布偏移(Distribution Shift),研究团队还引入了同分布(On-policy)策略:在压缩第   层时,使用前   层已压缩的模型状态来前向运行并提取查询向量,进一步保证了行为的忠实还原。


步骤二:键选择与偏置拟合


为避免迭代优化,算法直接从原始键中挑选最具代表性的子集作为压缩键 


除了简单的最高注意力分数策略,研究团队引入了正交匹配追踪(OMP)算法,贪心地挑选能最大程度减小质量拟合残差的键。


〓 图1. 正交匹配追踪(OMP)算法通过贪心策略挑选键,并结合非负最小二乘法(NNLS)拟合标量偏置


选定   后,求解   被转化为一个非负最小二乘法(NNLS)问题。


〓 图2. 为了在 GPU 上高效求解 NNLS,研究团队定制了基于投影梯度下降的实现方案


步骤三:值拟合


在确定了压缩键   和偏置   后,值矩阵   的求解完全变成了一个标准的普通最小二乘法(OLS)问题。



通过矩阵运算,即可直接计算出使注意力输出误差最小的压缩值矩阵。


3、架构适配与长上下文工程路径


面向实际部署,算法还需克服长文本内存爆炸与批处理效率的工程挑战。


OMP的批处理加速:标准的 OMP 在每次挑选新键后都需要重新求解 NNLS,这在长上下文中会成为耗时瓶颈。研究团队引入了 Top-k 批量选择和延迟重拟合策略。


〓 表1. 60k Token 场景下的耗时拆解,化后的 OMP-fast 将键选择耗时从 565 秒大幅压缩至 104 秒


分块压缩:针对极长上下文,算法独立处理连续的文本块。论文对比了两种工程实现:基于文本独立处理后进行 RoPE 相位偏移(Text-based),以及预填充后直接切片 KV 张量(KV-based)。


实验表明,保留了跨块位置信息的 KV-based 策略能够更忠实地保留模型行为。


滑动窗口注意力适配:混合架构模型(如 Gemma-3-12B,滑动窗口与全局层比例为 5:1)依然可以完美应用该方法。


只需对全局注意力层执行压缩,保留滑动窗口层不变,即可在维持极高压缩效果的同时兼容现代模型架构。


4、关键优化与消融验证:非均匀压缩策略


模型内部的不同注意力头对 KV 容量的敏感度差异巨大。某些头对容量高度敏感,而另一些头即便大幅压缩也不会对最终损失产生显著影响。


〓 图3. Qwen3-4B 模型中不同注意力头对 KV 容量变化的敏感度曲线


研究团队预先为每个模型计算了一份非均匀压缩调度表。通过贪婪交换算法,将受限的 KV 预算优先分配给最敏感的注意力头。


这一策略的有效性在消融实验中得到了充分验证。


〓 图4. 消融实验表明,摒弃非均匀头部预算会导致重建质量出现最严重的断崖式下跌,证明了该策略的核心地位


摘要与注意力匹配结合的终极压榨


除了标准的 KV 压缩,论文还展示了一个极具启发性的扩展实验:如果先对长文本进行摘要,再在摘要内容之上套用 AM-OMP 算法,能够实现高达 200 倍的总压缩率,且精度与单纯使用摘要方法相当。


〓 表2. 摘要叠加注意力匹配,实现约 200 倍极限压缩且精度不降


对于追求极致显存优化且容忍一定细节丢失的落地场景而言,这是一个极具吸引力的方案。


5、实验评估:速度、精度与连续在线压缩


研究团队在 QuALITY 和 LongHealth 基准上进行了全面评估。


〓 图5. 在 50 倍压缩率下,Attention Matching 方法勾勒出了压缩时间与精度的帕累托前沿


〓 图6. 跨模型与跨数据集的对比显示,Attention Matching 在高压缩区间持续保持领先,并在 50 倍压缩率下达到 Cartridges 的性能水平


该方法另一极具潜力的应用场景是在线连续压缩。在长周期智能体或复杂数学推理任务中,模型可能会生成数千个中间 Token。


在 AIME 2025 的测试场景中,模型设定了固定的物理内存预算,在推理中途多次对全局缓存(除最新 20 个 Token 外)进行 50% 比例的隐空间压缩。


〓 表3. AIME 推理过程中的在线压缩表现。即使中途经历多达 6 次的 KV 缓存截断与压缩,模型依然保持了与完全不压缩相当的推理精度


这一结果证明了 Attention Matching 能够有效解耦物理内存限制与逻辑推理深度,关键的推理状态在反复的极速压缩中得到了完整保留。


6、结语


Attention Matching 范式将隐空间上下文压缩解构为清晰的线性代数过程,提供了一种兼具数学严密性与免梯度优化的解决方案。


通过精确的局部行为匹配与非均匀预算分配,该方法为资源受限环境下的长周期计算和持续推理任务奠定了坚实的技术基础。


编辑:于腾凯
校对林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得这个问题可以转化为一个控制问题。把压缩率当成一个控制变量,模型推理速度和稳定性当成状态变量,设计一个PID控制器来动态调整压缩策略。当然,前提是要建立一个准确的数学模型来描述压缩率和推理性能之间的关系。这又是一个可以水论文的点啊!

个人认为,量化注意力头敏感度可以通过信息论的指标来衡量,例如计算不同注意力头的信息熵或者互信息,熵值越高或互信息越大的注意力头,可能对KV容量的变化越敏感。此外,还可以尝试使用神经网络来学习每个注意力头的敏感度评分,并将其作为KV预算分配的依据。感觉这块可以发一篇不错的论文。

除了长周期智能体和复杂数学推理,Attention Matching 的在线压缩方案在很多需要处理长序列数据的任务中都有潜在的应用价值。例如,在金融领域,可以用于分析长期的股票交易数据,挖掘潜在的交易模式;在医疗领域,可以用于分析患者的病历和基因组数据,辅助医生进行诊断和治疗;在自然语言处理领域,可以用于处理长篇文档和对话,提高机器翻译和文本摘要的质量。总的来说,只要是涉及到长序列数据处理的任务,都可以考虑使用 Attention Matching 的在线压缩方案来提高效率和性能。

我觉得这种在线压缩有点像游戏里的“内存整理”,时不时清理一下不用的东西,让游戏跑得更流畅。除了文章里提到的,我觉得还可以用在一些需要长时间运行的 AI 应用上,比如智能客服,可以压缩之前的对话记录,减少内存占用。或者是一些需要处理大量传感器数据的应用,比如自动驾驶,也可以用这种方法来压缩历史数据。

从学术的角度,我认为可以考虑使用基于信息论的方法。选择那些能最大程度保留原始Key向量信息熵的子集,比如使用互信息或者条件熵等指标来衡量。这种方法理论上可以保证压缩后的Key尽可能地保留原始Key的重要信息,从而提高精度。当然,计算复杂度可能会比较高,需要权衡。

问的好!除了OMP,我觉得可以试试基于聚类的方法。先把所有的Key向量聚类,然后每个簇选一个最有代表性的中心点作为压缩后的Key。这样既能保证选出来的Key具有代表性,又能减少计算量,提高效率。而且可以根据不同的聚类算法和簇的数量来调整压缩率和精度,灵活性更高。

别整那些花里胡哨的,最简单粗暴的方法不就是直接mask掉某个head,然后看性能下降多少吗?下降越多就说明越重要啊! 贪婪交换算法本质上也是这个思路,只不过更系统一些。我觉得这种方法虽然笨,但是有效!

动态调整压缩策略,我觉得可以借鉴一下操作系统里的虚拟内存管理机制。可以把KV缓存分成多个Page,然后根据Page的访问频率和重要性,采用不同的压缩策略。对于访问频率高的Page,可以降低压缩比例,保证快速访问;对于访问频率低的Page,可以提高压缩比例,释放更多内存。还可以引入一个“老化”机制,如果某个Page长时间没有被访问,就逐渐提高它的压缩比例,甚至swap到磁盘上。这样,就可以更精细地管理KV缓存,提高资源利用率。

这问题问到点子上了!我理解的“敏感”,应该是指这个Attention Head的输出对最终结果的影响程度。除了实验中不断try and error,我想到一个偏理论的思路:是不是可以借鉴神经网络可视化的方法,比如计算每个Attention Head输出对最终分类结果的梯度?梯度越大,说明这个Head越重要,也就越“敏感”。这种方法的好处是,可以更直接地衡量每个Head对最终目标的影响,而不仅仅是看它自己的输出特征。

楼上问的这个问题很有意思!文中提到的贪婪交换算法感觉是比较直接的方法,可能就是通过不断尝试压缩不同注意力头,然后观察对模型整体性能的影响来判断敏感度。不过,我觉得还可以考虑从模型内部的参数或者激活值入手。比如,可以分析每个注意力头的输出方差,方差越大可能说明这个头的信息量越大,也就更重要。或者,看看能不能用一些信息论的方法,比如计算每个头输出的熵,熵越大也可能说明它越重要。当然,这些都只是猜测,具体效果还得实验验证。

我觉得可以从模型结构入手,分析不同注意力头的功能。例如,有些头可能负责处理全局信息,有些头可能负责处理局部信息。一般来说,处理全局信息的头可能对上下文信息更敏感,应该分配更多的资源。当然,这需要对模型结构有深入的理解。

确定注意力头敏感度是个关键问题!文章里好像是通过实验来观察不同头在不同压缩比下的性能变化来确定的。我觉得可以考虑用信息论的方法,比如计算每个注意力头的输出熵,熵越大可能就越重要。或者,可以借鉴神经网络剪枝的思想,逐渐移除不重要的头,观察模型性能下降的情况。

我从另一个角度来谈谈。摘要质量和Attention Matching可以看作是两个互补的环节。好的摘要可以减少需要处理的信息量,降低Attention Matching的压力;而强大的Attention Matching又可以在一定程度上弥补摘要的不足。关键是要找到一个平衡点,根据实际需求选择合适的摘要算法和Attention Matching策略。

是的,频繁更新上下文确实是个挑战。每次都重新做Attention Matching肯定效率太低。我觉得可以考虑增量式更新,只对新增的Token进行压缩,然后和之前的压缩结果合并。或者,可以维护一个滑动窗口,只对窗口内的Token进行Attention Matching,这样可以减少计算量。

楼上说得有道理,OMP的优势在于考虑了键之间的相关性。简单选最高attention score的可能选出一堆高度相关的键,造成信息冗余。而OMP每次都选择能最大程度降低残差的键,保证了选出的键之间的差异性,更好地覆盖原始信息空间。这就像我们挑选团队成员,不是选能力最强的,而是选能互补的,这样团队整体实力才最强。

我觉得可以从两个方面理解,第一,这个方法抓住了attention机制的本质,也就是通过计算query和Key的相关性得到value的权重并进行加权求和。Attention Matching 就是要保证压缩后的KV能尽量保持这个加权求和的结果不变。第二,线性回归在这里提供了一种高效的近似方法,虽然可能不是最优解,但速度快,效果也能接受。

优势的话,主要就是快,而且不需要大量的训练数据。其他的KV压缩方法可能需要针对特定的模型和数据集进行训练,而Attention Matching 的通用性更好。