V²Drop:基于变化量感知的视觉Token压缩,加速大视觉语言模型推理

川大团队提出V2Drop,通过变化量感知,高效压缩视觉Token,加速大视觉语言模型推理,图像和视频理解任务均取得领先的性能-效率平衡。

原文标题:川大硕士团队新作:V2Drop 重构大模型 Token 压缩路径

原文作者:数据派THU

冷月清谈:

川大硕士团队提出了一种新的视觉Token压缩方法V2Drop,旨在解决大型视觉语言模型(LVLMs)在处理高分辨率图像和长视频时推理效率低下的问题。V2Drop的核心思想是利用视觉Token在LLM各层间的变化量来评估其重要性,通过多阶段渐进式剪枝策略,无需访问注意力矩阵,实现高效无偏的Token压缩。实验结果表明,V2Drop在图像和视频理解任务上均取得了领先的性能-效率平衡,并且与高效算子完全兼容,降低了LLM生成延迟,提升了吞吐量,同时减少了显存占用。与依赖注意力权重的方法相比,V2Drop避免了位置偏差问题,能够更准确地捕捉图像中的关键信息,实现加速与节存的双重收益。

怜星夜思:

1、V2Drop 通过 Token 变化量来评估重要性,这个思路挺有意思的。除了 L2 Norm,文章里还提到了 L1 Norm 和余弦相似度,为啥最终选择 L2 Norm 呢?其他指标在什么情况下可能更适用?
2、V2Drop 提到与 FlashAttention 等高效算子天然兼容,这是怎么做到的?具体来说,V2Drop 在算法层面做了哪些设计,使其能够充分利用这些高效算子的优势?
3、文章提到 V2Drop 在视频理解中能够有效缓解 VideoLLM 普遍存在的末帧偏置问题。这个末帧偏置具体指的是什么?V2Drop 是如何缓解这个问题的?除了 V2Drop,还有哪些方法可以解决这个问题?

原文内容

图片
来源:机器之心
本文约2000字,建议阅读5分钟
本文介绍川大团队提出 V²Drop,优化大视觉语言模型推理效率与性能。


  • 论文题目:Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

  • 论文链接:https://arxiv.org/abs/2509.01552

  • 代码链接:https://github.com/xuyang-liu16/V2Drop

  • 作者介绍:第一作者陈骏杰(四川大学硕士二年级)与共同一作刘旭洋(四川大学硕士三年级)深耕高效视觉语言模型。


背景与动机


随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:


一是位置偏差问题(如图 1 所示),该方法倾向于机械地保留序列末尾的 Token,无论图像内容如何,注意力得分普遍在序列末尾(对应图像底部区域)形成峰值(红色箭头),导致关键的前期 Token 被丢弃,进而加剧多模态幻觉。


二是与高效算子存在根本性的不兼容,计算注意力权重与 FlashAttention 等高效机制之间存在本质冲突。相比之下,右侧三列(绿色边框)展示了基于 L2 Norm 变化量评估方法的显著优势 —— 其得分分布均匀、能够精准聚焦于含有关键信息的图像区域(如绿色框标注的球衣号码区域),且无需显式注意力计算,与高效算子天然兼容。


图 1:注意力引导 vs. 变化量感知的 Token 评估对比


核心发现


发现 1:注意力方法存在系统性末端偏置


研究团队在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上,对比了 SparseVLM、FastV 与 L2 Norm 变化量评估在相同输入下的 Token 保留行为。注意力方法的保留概率曲线均呈单调递增阶梯形状 —— 末端 Token 保留率高达 80%~100%,前端仅 10%~30%,与内容重要性毫无关联。L2 Norm 则呈近似均匀分布,天然规避位置偏差。


图 2:两大模型上视觉 Token 保留位置分布分析 ——L2 Norm 呈现均匀分布,注意力方法呈严重末端偏置


发现 2:变化量高的 Token 天然对应语义关键区域


针对两个典型样本(百事可乐瓶识别、球衣号码识别),L1 Norm、L2 Norm 和余弦相似度三种指标均在答案相关区域出现显著峰值,且无论关键区域位于序列中段还是后段均能精准捕捉,表明变化量是衡量视觉 Token 重要性的鲁棒内在属性,L2 Norm 综合性能最优,被 V²Drop 选为默认度量。


图 3:三种变化量度量指标均精准定位答案相关区域(红框),验证变化量与语义重要性的强相关性


解决方案:V²Drop


V²Drop 在 LLM 推理阶段采用多阶段渐进式剪枝策略,三步实现高效无偏 Token 压缩:


① 变化量计算(Variation Computation)


在每个预定义剪枝层,计算每个视觉 Token 与上一层表示的 L2 距离作为重要性得分。额外开销仅为单层注意力计算量的 0.022%,可忽略不计。


② Token 排序与选择(Token Ranking & Selection)


按变化量得分从高到低排序,保留 Top-K 个 Token,自然过滤惰性 Token,无需引入任何位置偏置。


③ 渐进式压缩(Progressive Dropping)


在浅层、中层、深层三阶段依次执行剪枝,形成 M → Ka → Kb → Kc 渐进压缩路径。消融实验证明,渐进式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。


图 4:V²Drop 整体框架


理论保证


通过一阶 Taylor 展开证明,Token 的变化量幅度与其对模型输出的影响正相关,从理论上验证了丢弃低变化量 Token 能最小化输出扰动的核心假设。架构的三大属性(残差连接、Layer Norm、平滑激活函数)共同保证了理论假设的合理性。


实验结果


1、图像理解(LLaVA-1.5-7B & Qwen2-VL-7B)


在图像场景的核心表现上,本方法在 LLaVA-1.5-7B 上:压缩 66.7% Token(保留 192 个)时,综合性能达 97.6%,超越次优方法 PDrop(96.0%。此外,在 Qwen2-VL-7B 高分辨率场景中,66.7% 和 77.8% 两档压缩率下均全面超越 FastV 和 DART,尤其在 POPE 幻觉抑制指标上表现突出,充分验证了本方法对原生可变分辨率输入的强泛化能力。


表 1:基于 LLaVA-1.5-7B 的多图像理解基准测试对比


表 2:基于 Qwen2-VL-7B 的多图像理解基准测试对比


2、视频理解(LLaVA-OV-7B & Qwen2-VL-7B)


在视频场景中,本方法同样表现卓越:仅保留 25% 的 Token 时,综合性能即达 98.6%,超越保留 30% Token 的 DyCoke(97.7%),以更少 Token 实现更优性能;在长视频任务(VideoMME-Long)上持续领跑,有效缓解了 VideoLLM 普遍存在的末帧偏置问题;在 Qwen2-VL-7B 场景下,仅保留 20% Token 时综合性能达 93.3%,其中 MVBench 以 62.1 分大幅领先 DART(58.9)和 FastV(50.9),优势尤为突出。


表 3:基于 Qwen2-VL-7B 的多视频理解基准测试性能对比


表 4:基于 LLaVA-OV-7B 的多视频理解基准测试性能对比


3、效率分析(与高效算子完全兼容)


在效率层面,本方法同样带来显著收益:图文理解任务(LLaVA-1.5-7B)中,LLM 生成延迟降低 31.5%,吞吐量提升至 9.01 items/s(↑1.26×),峰值显存同步下降 3.3%;视频理解任务(LLaVA-OV-7B)中,LLM 生成延迟大幅削减 74.2%,吞吐量提升 1.38×,峰值显存降低 7.8%。与之形成鲜明对比的是,SparseVLM、FastV、PDrop 在视频场景下峰值显存分别暴增 54.8%、39.2% 和 37.8%,而本方法无需计算注意力矩阵,真正实现了加速与节存的双重收益。


表 5:图像 / 视频理解任务的效率对比


结论


V²Drop 为视觉语言模型的推理加速开辟了一条全新路径。研究发现,视觉 Token 在 LLM 各层间的变化量与其任务相关性高度吻合,且这一规律与具体任务无关(task-agnostic)。基于这一洞察,V²Drop 以变化量为核心评估信号,构建了一套轻量、渐进、与高效算子完全兼容的 Token 压缩框架 —— 无需修改模型权重,无需访问注意力矩阵,即插即用。在图像与视频理解两条赛道上均实现当前最优性能 - 效率权衡。


编辑:于腾凯
校对:刘红利

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

从人类视觉认知的角度来看,图像的边缘和纹理信息通常包含着重要的语义。那么,可以尝试使用图像处理中的一些算子,比如Sobel算子或者Gabor滤波器,来提取Token对应的图像区域的边缘或纹理特征,然后用这些特征来衡量Token的重要性。

其实我觉得可以结合多种指标。比如,可以把L2 Norm变化量作为一个基础指标,然后结合Token的注意力权重、梯度信息、以及图像的边缘纹理特征等,设计一个更复杂的评分函数。这样可以综合考虑Token的各种属性,从而更准确地评估其重要性。

我觉得可以考虑结合Token的梯度信息。如果某个Token的微小变化能引起模型输出的剧烈变化,那说明它对最终结果影响很大,应该更重要。当然,计算梯度可能会增加额外的开销,需要权衡一下。

可以尝试使用一些更加复杂的模型结构,比如3D卷积神经网络(3D CNN)或者Transformer网络。这些模型能够更好地捕捉视频中的时空信息,从而更准确地理解视频内容,减少对末帧的偏置。

从数据增强的角度,可以尝试对训练数据进行一些处理,比如随机打乱视频帧的顺序、或者在视频末尾添加一些噪声帧。这样可以降低模型对末帧的依赖性,提高模型的泛化能力。

个人感觉,短期内完全取代注意力机制不太可能。注意力机制在大模型中已经根深蒂固,很多模型结构都依赖它。但V²Drop这种方法提供了一个很好的替代方案,尤其是在对效率要求较高的场景下。未来可能会出现更多类似的、不依赖注意力机制的Token压缩方法,与注意力机制形成互补。

我觉得很有潜力!注意力机制虽然强大,但计算复杂度高,一直是个瓶颈。V²Drop这种另辟蹊径的方法,既能实现Token压缩,又能避免高昂的计算开销,符合大模型轻量化的趋势。如果能在更多模型和任务上验证其有效性,很有希望成为主流。

与其说是取代,不如说是共存和融合。注意力机制在处理复杂关系方面有优势,而V²Drop在效率方面更胜一筹。未来的趋势可能是将两者结合起来,根据不同的任务和场景,动态地选择使用哪种方法,或者将两种方法融合在一起,取长补短。

可以考虑引入时间注意力机制。这种机制允许模型在处理每一帧时,不仅关注当前帧的内容,还能关注其他帧的信息,从而更好地理解视频的整体内容。通过调整时间注意力的权重,可以减少模型对末帧的过度关注。

其实我觉得V2Drop更像是绕开了注意力机制,另辟蹊径。与其说它“利用”了FlashAttention的优势,不如说它“避免了与FlashAttention的冲突”。FlashAttention通过分块计算等方式减少显存占用,加速注意力计算。而V2Drop压根就不需要计算注意力,从根本上避免了这个问题。这种思路有点像“如果解决不了问题,那就不要面对问题”,哈哈。

兼容FlashAttention的关键在于V2Drop避免了显式计算注意力权重。传统的Token压缩方法往往依赖注意力权重来判断Token的重要性,这与FlashAttention等通过避免完整注意力矩阵计算来加速的机制是冲突的。V2Drop通过计算Token的变化量来评估重要性,无需访问注意力矩阵,自然就能与FlashAttention等高效算子兼容。具体来说,V2Drop只需要在每个剪枝层计算Token与上一层表示的L2距离,这个计算量非常小,不会成为瓶颈。

末帧偏置是指 VideoLLM 在处理视频时,往往更关注视频末尾的帧,而忽略了前面的内容,导致模型对视频的理解不够全面。V2Drop 通过渐进式剪枝,在浅层、中层、深层三个阶段依次执行剪枝,这样可以保证模型在处理视频早期就能关注到关键信息,避免过度依赖末尾帧。此外,由于V2Drop是基于Token变化量进行剪枝,与位置无关,所以能够避免注意力机制可能导致的位置偏置问题。

从理论上讲,L2 Norm 对应的是欧几里得距离,它在空间中更能体现向量之间的差异程度。L1 Norm 对应的是曼哈顿距离,某种程度上可以理解为只能横平竖直的移动。而余弦相似度只关注角度,丢失了距离信息。对于Token embedding来说,L2 Norm可能更能反应其语义上的变化程度。当然,这只是我的一个猜想,具体原因可能还需要更深入的实验验证。

我理解选择L2 Norm更多是从工程角度考虑吧。虽然L1 Norm和余弦相似度在某些特定场景下可能表现更好,但L2 Norm的实现简单,计算效率高,而且在大多数情况下都能取得不错的效果。在实际应用中,效率往往比精度更重要,尤其是在大模型推理加速的场景下。如果对精度要求极高,资源又充足,可以考虑尝试其他指标,或者将它们结合起来使用。

从更底层的角度看,FlashAttention 优化的重点是矩阵乘法,而 V2Drop 避免了大规模矩阵乘法,改用 L2 Norm 这种 element-wise 的计算,更适合 GPU 并行计算。这就像是,FlashAttention 优化的是高速公路上的车辆通行效率,而 V2Drop 直接把一部分车辆换成了自行车,自然更轻松了。

末帧偏置问题的一种解释是, Transformer 结构在处理长序列时,后面的 Token 对最终结果的影响更大。 为了缓解这个问题,可以尝试以下方法:
1. 位置编码改进: 尝试更先进的位置编码方式,使得模型对不同位置的 Token 的关注度更加均衡。
2. 时间注意力机制: 引入时间注意力机制,显式地建模视频帧之间的时间关系,让模型能够更好地理解视频内容随时间的变化。
3. 多尺度特征融合: 提取视频不同尺度的特征,并将它们融合起来,从而让模型能够从不同角度理解视频内容。

这个问题很有意思!文章提到 L1 Norm、L2 Norm 和余弦相似度都能在答案相关区域出现峰值,说明变化量确实能反映 Token 的重要性。选择 L2 Norm 可能是因为它综合考虑了数值的大小和方向,对异常值不敏感,更加稳定。L1 Norm 强调绝对值的变化,可能对噪声更敏感。余弦相似度关注方向,但可能忽略了数值大小的信息。具体哪个指标更适用,可能取决于具体的任务和数据特性。比如说,如果数据中存在大量噪声,L2 Norm 可能更robust;如果需要突出变化幅度,L1 Norm 也许更合适;如果更关心向量方向的一致性,余弦相似度可能更优。

我理解的末帧偏置,就像是人看电影只记得结尾,前面的剧情都忘了。V2Drop 相当于给模型设置了“记忆力衰减”,让它不能只记住最后几帧,而是要综合考虑整个视频。除了 V2Drop 这种 Token 压缩的方法,还可以尝试一些其他的思路,比如设计更合理的 Loss 函数,或者在训练数据中加入一些 trick,让模型更加关注视频的整体内容。