MIT提出Attention Matching方法,用线性回归破解大模型上下文瓶颈,压缩速度提升两个数量级,为长周期计算和持续推理任务奠定基础。
原文标题:大模型上下文卡壳?MIT 用线性回归轻松破局
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章中提到非均匀压缩策略,不同注意力头对KV容量的敏感度差异巨大,那么,在实际应用中,如何确定哪些注意力头对KV容量更敏感,应该分配更多的KV预算给它们?
3、文章最后提到了摘要叠加注意力匹配可以实现更高的压缩率,但同时也意味着会损失一定的细节信息,在实际应用中,应该如何权衡压缩率和信息损失?有哪些场景更适合采用这种极限压缩方案?
原文内容
本文约2400字,建议阅读5分钟本文介绍了 MIT 团队的 Attention Matching 方法,用线性回归破解大模型上下文瓶颈。
突破大模型无限上下文瓶颈的核心解法是什么?MIT 团队给出的答案出乎意料的朴素:线性回归。
尽管挑选核心键(Key)仍需依赖启发式或贪心搜索,但最耗时的特征拟合已被 MIT 的最新研究彻底转化为经典的线性回归问题。
内存已经成为现代语言模型中的关键瓶颈。在处理推理、多轮对话或长周期代码生成等任务时,模型必须保留所有历史 Token 的键值对(KV)缓存。
在长上下文场景下,KV 缓存会占用大量显存。传统的上下文压缩方案,如 Token 丢弃或合并,在面临高压缩率时性能下降迅速。
近期提出的 Cartridges 方案证明了在隐空间内训练高压缩比 KV 缓存的可行性,能够在极大程度上保持全上下文的性能。
然而,其端到端梯度优化的成本极高,单次压缩通常需要数个 GPU 小时。
为此,MIT 团队在最新论文 Fast KV Compaction via Attention Matching 中提供了一种全新范式。
研究团队回归注意力机制的本质,通过构建压缩键值对来复刻原始注意力行为。该匹配问题被巧妙分解为多个可高效求解的闭式子任务,彻底避开了缓慢的梯度下降。
该方法在保持等同于 Cartridges 压缩率和精度的同时,将压缩时间缩短了两个数量级。
论文标题:
Fast KV Compaction via Attention Matching
论文链接:
https://arxiv.org/pdf/2602.16284
代码链接:
https://github.com/adamzweiger/compaction
1、理论重构:混合恒等式与注意力匹配
假设我们需要压缩上下文中长度为 的 Token 序列,其对应的原始键和值为 。目标是找到更短的压缩键值对 ,其中 。
要实现无损拼接,压缩后的 KV 块必须能够与未知的未来 Token(设为 )完美融合。
研究团队在附录中给出了一个关键的混合恒等式,拼接注意力块的最终输出,实际上是各个局部注意力输出的混合,其混合权重由各自的注意力质量(Attention Mass)决定。
基于上述推导,只要在给定的参考查询集上,让压缩后的 KV 块满足以下两个条件,就能保证其在拼接任意新内容时,表现出高度一致的注意力行为:
匹配局部注意力输出:
匹配注意力质量:
这里引入了一个核心的逐 Token 标量偏置 。由于物理长度缩短,仅靠 是无法实现精确的质量匹配的。
偏置项 作为乘性权重,使被保留下来的关键 Token 能够代表多个已被丢弃 Token 的质量总和。
引入该偏置的内存开销极低(仅增加 的系数),且对注意力机制的运行时间几乎零影响。
2、极速压缩的工程实现:无需梯度的三步走
联合优化 在计算上极其困难。研究团队将其拆解为按顺序执行的三个步骤,全部采用线性代数方法求解。
步骤一:构建参考查询
算法首先需要一组查询向量 作为优化目标。研究采用了 Repeat-prefill 和 Self-study 两种机制,提示模型针对当前上下文生成对话以拓宽查询分布。
为了缓解逐层压缩引发的查询分布偏移(Distribution Shift),研究团队还引入了同分布(On-policy)策略:在压缩第 层时,使用前 层已压缩的模型状态来前向运行并提取查询向量,进一步保证了行为的忠实还原。
步骤二:键选择与偏置拟合
为避免迭代优化,算法直接从原始键中挑选最具代表性的子集作为压缩键 。
除了简单的最高注意力分数策略,研究团队引入了正交匹配追踪(OMP)算法,贪心地挑选能最大程度减小质量拟合残差的键。
〓 图1. 正交匹配追踪(OMP)算法通过贪心策略挑选键,并结合非负最小二乘法(NNLS)拟合标量偏置
选定 后,求解 被转化为一个非负最小二乘法(NNLS)问题。
〓 图2. 为了在 GPU 上高效求解 NNLS,研究团队定制了基于投影梯度下降的实现方案
步骤三:值拟合
在确定了压缩键 和偏置 后,值矩阵 的求解完全变成了一个标准的普通最小二乘法(OLS)问题。
通过矩阵运算,即可直接计算出使注意力输出误差最小的压缩值矩阵。
3、架构适配与长上下文工程路径
面向实际部署,算法还需克服长文本内存爆炸与批处理效率的工程挑战。
OMP的批处理加速:标准的 OMP 在每次挑选新键后都需要重新求解 NNLS,这在长上下文中会成为耗时瓶颈。研究团队引入了 Top-k 批量选择和延迟重拟合策略。
〓 表1. 60k Token 场景下的耗时拆解,优化后的 OMP-fast 将键选择耗时从 565 秒大幅压缩至 104 秒
分块压缩:针对极长上下文,算法独立处理连续的文本块。论文对比了两种工程实现:基于文本独立处理后进行 RoPE 相位偏移(Text-based),以及预填充后直接切片 KV 张量(KV-based)。
实验表明,保留了跨块位置信息的 KV-based 策略能够更忠实地保留模型行为。
滑动窗口注意力适配:混合架构模型(如 Gemma-3-12B,滑动窗口与全局层比例为 5:1)依然可以完美应用该方法。
只需对全局注意力层执行压缩,保留滑动窗口层不变,即可在维持极高压缩效果的同时兼容现代模型架构。
4、关键优化与消融验证:非均匀压缩策略
模型内部的不同注意力头对 KV 容量的敏感度差异巨大。某些头对容量高度敏感,而另一些头即便大幅压缩也不会对最终损失产生显著影响。
〓 图3. Qwen3-4B 模型中不同注意力头对 KV 容量变化的敏感度曲线
研究团队预先为每个模型计算了一份非均匀压缩调度表。通过贪婪交换算法,将受限的 KV 预算优先分配给最敏感的注意力头。
这一策略的有效性在消融实验中得到了充分验证。
〓 图4. 消融实验表明,摒弃非均匀头部预算会导致重建质量出现最严重的断崖式下跌,证明了该策略的核心地位
摘要与注意力匹配结合的终极压榨
除了标准的 KV 压缩,论文还展示了一个极具启发性的扩展实验:如果先对长文本进行摘要,再在摘要内容之上套用 AM-OMP 算法,能够实现高达 200 倍的总压缩率,且精度与单纯使用摘要方法相当。
〓 表2. 摘要叠加注意力匹配,实现约 200 倍极限压缩且精度不降
对于追求极致显存优化且容忍一定细节丢失的落地场景而言,这是一个极具吸引力的方案。
5、实验评估:速度、精度与连续在线压缩
研究团队在 QuALITY 和 LongHealth 基准上进行了全面评估。
〓 图5. 在 50 倍压缩率下,Attention Matching 方法勾勒出了压缩时间与精度的帕累托前沿
〓 图6. 跨模型与跨数据集的对比显示,Attention Matching 在高压缩区间持续保持领先,并在 50 倍压缩率下达到 Cartridges 的性能水平
该方法另一极具潜力的应用场景是在线连续压缩。在长周期智能体或复杂数学推理任务中,模型可能会生成数千个中间 Token。
在 AIME 2025 的测试场景中,模型设定了固定的物理内存预算,在推理中途多次对全局缓存(除最新 20 个 Token 外)进行 50% 比例的隐空间压缩。
〓 表3. AIME 推理过程中的在线压缩表现。即使中途经历多达 6 次的 KV 缓存截断与压缩,模型依然保持了与完全不压缩相当的推理精度
这一结果证明了 Attention Matching 能够有效解耦物理内存限制与逻辑推理深度,关键的推理状态在反复的极速压缩中得到了完整保留。
6、结语
Attention Matching 范式将隐空间上下文压缩解构为清晰的线性代数过程,提供了一种兼具数学严密性与免梯度优化的解决方案。
通过精确的局部行为匹配与非均匀预算分配,该方法为资源受限环境下的长周期计算和持续推理任务奠定了坚实的技术基础。














