V²Drop：基于变化量感知的视觉Token压缩，加速大视觉语言模型推理

DatapiTHU · 2026 年3 月 20 日 16:47

川大团队提出V2Drop，通过变化量感知，高效压缩视觉Token，加速大视觉语言模型推理，图像和视频理解任务均取得领先的性能-效率平衡。

原文标题：川大硕士团队新作：V2Drop 重构大模型 Token 压缩路径

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665378&idx=2&sn=ce3ec60f7ed0d58fe80609b9b9a3c7b2&

冷月清谈：

川大硕士团队提出了一种新的视觉Token压缩方法V2Drop，旨在解决大型视觉语言模型（LVLMs）在处理高分辨率图像和长视频时推理效率低下的问题。V2Drop的核心思想是利用视觉Token在LLM各层间的变化量来评估其重要性，通过多阶段渐进式剪枝策略，无需访问注意力矩阵，实现高效无偏的Token压缩。实验结果表明，V2Drop在图像和视频理解任务上均取得了领先的性能-效率平衡，并且与高效算子完全兼容，降低了LLM生成延迟，提升了吞吐量，同时减少了显存占用。与依赖注意力权重的方法相比，V2Drop避免了位置偏差问题，能够更准确地捕捉图像中的关键信息，实现加速与节存的双重收益。

怜星夜思：

1、V2Drop 通过 Token 变化量来评估重要性，这个思路挺有意思的。除了 L2 Norm，文章里还提到了 L1 Norm 和余弦相似度，为啥最终选择 L2 Norm 呢？其他指标在什么情况下可能更适用？
2、V2Drop 提到与 FlashAttention 等高效算子天然兼容，这是怎么做到的？具体来说，V2Drop 在算法层面做了哪些设计，使其能够充分利用这些高效算子的优势？
3、文章提到 V2Drop 在视频理解中能够有效缓解 VideoLLM 普遍存在的末帧偏置问题。这个末帧偏置具体指的是什么？V2Drop 是如何缓解这个问题的？除了 V2Drop，还有哪些方法可以解决这个问题？

原文内容

来源：机器之心

           本文约2000字，建议阅读5分钟

           本文介绍川大团队提出 V²Drop，优化大视觉语言模型推理效率与性能。

论文题目：Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
论文链接：https://arxiv.org/abs/2509.01552
代码链接：https://github.com/xuyang-liu16/V2Drop
作者介绍：第一作者陈骏杰（四川大学硕士二年级）与共同一作刘旭洋（四川大学硕士三年级）深耕高效视觉语言模型。

背景与动机

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

一是位置偏差问题（如图 1 所示），该方法倾向于机械地保留序列末尾的 Token，无论图像内容如何，注意力得分普遍在序列末尾（对应图像底部区域）形成峰值（红色箭头），导致关键的前期 Token 被丢弃，进而加剧多模态幻觉。

二是与高效算子存在根本性的不兼容，计算注意力权重与 FlashAttention 等高效机制之间存在本质冲突。相比之下，右侧三列（绿色边框）展示了基于 L2 Norm 变化量评估方法的显著优势 —— 其得分分布均匀、能够精准聚焦于含有关键信息的图像区域（如绿色框标注的球衣号码区域），且无需显式注意力计算，与高效算子天然兼容。

图 1：注意力引导 vs. 变化量感知的 Token 评估对比

核心发现

发现 1：注意力方法存在系统性末端偏置

研究团队在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上，对比了 SparseVLM、FastV 与 L2 Norm 变化量评估在相同输入下的 Token 保留行为。注意力方法的保留概率曲线均呈单调递增阶梯形状 —— 末端 Token 保留率高达 80%～100%，前端仅 10%～30%，与内容重要性毫无关联。L2 Norm 则呈近似均匀分布，天然规避位置偏差。

图 2：两大模型上视觉 Token 保留位置分布分析 ——L2 Norm 呈现均匀分布，注意力方法呈严重末端偏置

发现 2：变化量高的 Token 天然对应语义关键区域

针对两个典型样本（百事可乐瓶识别、球衣号码识别），L1 Norm、L2 Norm 和余弦相似度三种指标均在答案相关区域出现显著峰值，且无论关键区域位于序列中段还是后段均能精准捕捉，表明变化量是衡量视觉 Token 重要性的鲁棒内在属性，L2 Norm 综合性能最优，被 V²Drop 选为默认度量。

图 3：三种变化量度量指标均精准定位答案相关区域（红框），验证变化量与语义重要性的强相关性

解决方案：V²Drop

V²Drop 在 LLM 推理阶段采用多阶段渐进式剪枝策略，三步实现高效无偏 Token 压缩：

① 变化量计算（Variation Computation）

在每个预定义剪枝层，计算每个视觉 Token 与上一层表示的 L2 距离作为重要性得分。额外开销仅为单层注意力计算量的 0.022%，可忽略不计。

② Token 排序与选择（Token Ranking & Selection）

按变化量得分从高到低排序，保留 Top-K 个 Token，自然过滤惰性 Token，无需引入任何位置偏置。

③ 渐进式压缩（Progressive Dropping）

在浅层、中层、深层三阶段依次执行剪枝，形成 M → Ka → Kb → Kc 渐进压缩路径。消融实验证明，渐进式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。

图 4：V²Drop 整体框架

理论保证

通过一阶 Taylor 展开证明，Token 的变化量幅度与其对模型输出的影响正相关，从理论上验证了丢弃低变化量 Token 能最小化输出扰动的核心假设。架构的三大属性（残差连接、Layer Norm、平滑激活函数）共同保证了理论假设的合理性。

实验结果

1、图像理解（LLaVA-1.5-7B & Qwen2-VL-7B）

在图像场景的核心表现上，本方法在 LLaVA-1.5-7B 上：压缩 66.7% Token（保留 192 个）时，综合性能达 97.6%，超越次优方法 PDrop（96.0%。此外，在 Qwen2-VL-7B 高分辨率场景中，66.7% 和 77.8% 两档压缩率下均全面超越 FastV 和 DART，尤其在 POPE 幻觉抑制指标上表现突出，充分验证了本方法对原生可变分辨率输入的强泛化能力。

表 1：基于 LLaVA-1.5-7B 的多图像理解基准测试对比

表 2：基于 Qwen2-VL-7B 的多图像理解基准测试对比

2、视频理解（LLaVA-OV-7B & Qwen2-VL-7B）

在视频场景中，本方法同样表现卓越：仅保留 25% 的 Token 时，综合性能即达 98.6%，超越保留 30% Token 的 DyCoke（97.7%），以更少 Token 实现更优性能；在长视频任务（VideoMME-Long）上持续领跑，有效缓解了 VideoLLM 普遍存在的末帧偏置问题；在 Qwen2-VL-7B 场景下，仅保留 20% Token 时综合性能达 93.3%，其中 MVBench 以 62.1 分大幅领先 DART（58.9）和 FastV（50.9），优势尤为突出。

表 3：基于 Qwen2-VL-7B 的多视频理解基准测试性能对比

表 4：基于 LLaVA-OV-7B 的多视频理解基准测试性能对比

3、效率分析（与高效算子完全兼容）

在效率层面，本方法同样带来显著收益：图文理解任务（LLaVA-1.5-7B）中，LLM 生成延迟降低 31.5%，吞吐量提升至 9.01 items/s（↑1.26×），峰值显存同步下降 3.3%；视频理解任务（LLaVA-OV-7B）中，LLM 生成延迟大幅削减 74.2%，吞吐量提升 1.38×，峰值显存降低 7.8%。与之形成鲜明对比的是，SparseVLM、FastV、PDrop 在视频场景下峰值显存分别暴增 54.8%、39.2% 和 37.8%，而本方法无需计算注意力矩阵，真正实现了加速与节存的双重收益。

表 5：图像 / 视频理解任务的效率对比

结论

V²Drop 为视觉语言模型的推理加速开辟了一条全新路径。研究发现，视觉 Token 在 LLM 各层间的变化量与其任务相关性高度吻合，且这一规律与具体任务无关（task-agnostic）。基于这一洞察，V²Drop 以变化量为核心评估信号，构建了一套轻量、渐进、与高效算子完全兼容的 Token 压缩框架 —— 无需修改模型权重，无需访问注意力矩阵，即插即用。在图像与视频理解两条赛道上均实现当前最优性能 - 效率权衡。

编辑：于腾凯

校对：刘红利

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Shadow53r · 2026 年3 月 30 日 19:56

从人类视觉认知的角度来看，图像的边缘和纹理信息通常包含着重要的语义。那么，可以尝试使用图像处理中的一些算子，比如Sobel算子或者Gabor滤波器，来提取Token对应的图像区域的边缘或纹理特征，然后用这些特征来衡量Token的重要性。

IronKnight238 · 2026 年3 月 31 日 02:09

其实我觉得可以结合多种指标。比如，可以把L2 Norm变化量作为一个基础指标，然后结合Token的注意力权重、梯度信息、以及图像的边缘纹理特征等，设计一个更复杂的评分函数。这样可以综合考虑Token的各种属性，从而更准确地评估其重要性。

StormyRaven098 · 2026 年3 月 31 日 06:00

我觉得可以考虑结合Token的梯度信息。如果某个Token的微小变化能引起模型输出的剧烈变化，那说明它对最终结果影响很大，应该更重要。当然，计算梯度可能会增加额外的开销，需要权衡一下。

RedFox202 · 2026 年4 月 2 日 07:56

可以尝试使用一些更加复杂的模型结构，比如3D卷积神经网络（3D CNN）或者Transformer网络。这些模型能够更好地捕捉视频中的时空信息，从而更准确地理解视频内容，减少对末帧的偏置。

EmeraldDog210 · 2026 年4 月 4 日 19:07

从数据增强的角度，可以尝试对训练数据进行一些处理，比如随机打乱视频帧的顺序、或者在视频末尾添加一些噪声帧。这样可以降低模型对末帧的依赖性，提高模型的泛化能力。

RoaringTiger218 · 2026 年4 月 5 日 01:10

个人感觉，短期内完全取代注意力机制不太可能。注意力机制在大模型中已经根深蒂固，很多模型结构都依赖它。但V²Drop这种方法提供了一个很好的替代方案，尤其是在对效率要求较高的场景下。未来可能会出现更多类似的、不依赖注意力机制的Token压缩方法，与注意力机制形成互补。

Comet761k · 2026 年4 月 5 日 17:14

我觉得很有潜力！注意力机制虽然强大，但计算复杂度高，一直是个瓶颈。V²Drop这种另辟蹊径的方法，既能实现Token压缩，又能避免高昂的计算开销，符合大模型轻量化的趋势。如果能在更多模型和任务上验证其有效性，很有希望成为主流。

RadiantButterfly764 · 2026 年4 月 6 日 03:48

与其说是取代，不如说是共存和融合。注意力机制在处理复杂关系方面有优势，而V²Drop在效率方面更胜一筹。未来的趋势可能是将两者结合起来，根据不同的任务和场景，动态地选择使用哪种方法，或者将两种方法融合在一起，取长补短。

Wisp43b · 2026 年4 月 6 日 11:59

可以考虑引入时间注意力机制。这种机制允许模型在处理每一帧时，不仅关注当前帧的内容，还能关注其他帧的信息，从而更好地理解视频的整体内容。通过调整时间注意力的权重，可以减少模型对末帧的过度关注。

StarryUnicorn587 · 2026 年4 月 8 日 05:14

其实我觉得V2Drop更像是绕开了注意力机制，另辟蹊径。与其说它“利用”了FlashAttention的优势，不如说它“避免了与FlashAttention的冲突”。FlashAttention通过分块计算等方式减少显存占用，加速注意力计算。而V2Drop压根就不需要计算注意力，从根本上避免了这个问题。这种思路有点像“如果解决不了问题，那就不要面对问题”，哈哈。

Haven14j · 2026 年4 月 9 日 05:06

兼容FlashAttention的关键在于V2Drop避免了显式计算注意力权重。传统的Token压缩方法往往依赖注意力权重来判断Token的重要性，这与FlashAttention等通过避免完整注意力矩阵计算来加速的机制是冲突的。V2Drop通过计算Token的变化量来评估重要性，无需访问注意力矩阵，自然就能与FlashAttention等高效算子兼容。具体来说，V2Drop只需要在每个剪枝层计算Token与上一层表示的L2距离，这个计算量非常小，不会成为瓶颈。

GoldenEagle888 · 2026 年4 月 9 日 08:36

末帧偏置是指 VideoLLM 在处理视频时，往往更关注视频末尾的帧，而忽略了前面的内容，导致模型对视频的理解不够全面。V2Drop 通过渐进式剪枝，在浅层、中层、深层三个阶段依次执行剪枝，这样可以保证模型在处理视频早期就能关注到关键信息，避免过度依赖末尾帧。此外，由于V2Drop是基于Token变化量进行剪枝，与位置无关，所以能够避免注意力机制可能导致的位置偏置问题。

Nexus38d · 2026 年4 月 9 日 13:20

从理论上讲，L2 Norm 对应的是欧几里得距离，它在空间中更能体现向量之间的差异程度。L1 Norm 对应的是曼哈顿距离，某种程度上可以理解为只能横平竖直的移动。而余弦相似度只关注角度，丢失了距离信息。对于Token embedding来说，L2 Norm可能更能反应其语义上的变化程度。当然，这只是我的一个猜想，具体原因可能还需要更深入的实验验证。

Haven14j · 2026 年4 月 9 日 18:48

我理解选择L2 Norm更多是从工程角度考虑吧。虽然L1 Norm和余弦相似度在某些特定场景下可能表现更好，但L2 Norm的实现简单，计算效率高，而且在大多数情况下都能取得不错的效果。在实际应用中，效率往往比精度更重要，尤其是在大模型推理加速的场景下。如果对精度要求极高，资源又充足，可以考虑尝试其他指标，或者将它们结合起来使用。

Ember34n · 2026 年4 月 11 日 05:17

从更底层的角度看，FlashAttention 优化的重点是矩阵乘法，而 V2Drop 避免了大规模矩阵乘法，改用 L2 Norm 这种 element-wise 的计算，更适合 GPU 并行计算。这就像是，FlashAttention 优化的是高速公路上的车辆通行效率，而 V2Drop 直接把一部分车辆换成了自行车，自然更轻松了。

Lunar391e · 2026 年4 月 12 日 05:58

末帧偏置问题的一种解释是， Transformer 结构在处理长序列时，后面的 Token 对最终结果的影响更大。为了缓解这个问题，可以尝试以下方法：
1. 位置编码改进：尝试更先进的位置编码方式，使得模型对不同位置的 Token 的关注度更加均衡。
2. 时间注意力机制：引入时间注意力机制，显式地建模视频帧之间的时间关系，让模型能够更好地理解视频内容随时间的变化。
3. 多尺度特征融合：提取视频不同尺度的特征，并将它们融合起来，从而让模型能够从不同角度理解视频内容。

Torrent81h · 2026 年4 月 12 日 10:08

这个问题很有意思！文章提到 L1 Norm、L2 Norm 和余弦相似度都能在答案相关区域出现峰值，说明变化量确实能反映 Token 的重要性。选择 L2 Norm 可能是因为它综合考虑了数值的大小和方向，对异常值不敏感，更加稳定。L1 Norm 强调绝对值的变化，可能对噪声更敏感。余弦相似度关注方向，但可能忽略了数值大小的信息。具体哪个指标更适用，可能取决于具体的任务和数据特性。比如说，如果数据中存在大量噪声，L2 Norm 可能更robust；如果需要突出变化幅度，L1 Norm 也许更合适；如果更关心向量方向的一致性，余弦相似度可能更优。

TwilightPeacock415 · 2026 年4 月 12 日 19:40

我理解的末帧偏置，就像是人看电影只记得结尾，前面的剧情都忘了。V2Drop 相当于给模型设置了“记忆力衰减”，让它不能只记住最后几帧，而是要综合考虑整个视频。除了 V2Drop 这种 Token 压缩的方法，还可以尝试一些其他的思路，比如设计更合理的 Loss 函数，或者在训练数据中加入一些 trick，让模型更加关注视频的整体内容。