多模态长上下文Token压缩技术综述:MLLM效率瓶颈解析与未来方向

多模态大模型面临长上下文Token爆炸难题?这篇综述深入剖析了图像、视频、音频的Token压缩机制,为高效MLLM指明方向。

原文标题:TMLR 2026 | 首篇多模态长上下文Token压缩综述:浙大、西湖大学等全面解析MLLM效率瓶颈

原文作者:机器之心

冷月清谈:

多模态大语言模型(MLLM)在处理长上下文时面临Token数量爆炸和计算成本飙升的挑战。本文是首篇关于多模态长上下文Token压缩的系统性综述,已被TMLR 2026接收,论文提出了统一的分类体系,将现有方法分为图像、视频和音频三大类,并根据底层算法机制细分为基于变换、相似度、注意力和查询四种类型。针对每种模态,综述深入剖析了其压缩机制,例如图像压缩侧重于空间冗余消除,视频压缩侧重于时空冗余消除,音频压缩侧重于处理静音和噪声。此外,文章还讨论了Token压缩技术面临的挑战,包括性能与效率的权衡、部署难题以及多轮对话的适应性。最后,文章展望了未来的发展方向,包括跨模态协同压缩和原生高效架构的设计。该综述为研究者和工程师提供了在资源受限设备上部署MLLM,或处理超长视频/文档的指导。

怜星夜思:

1、文章提到了Token压缩在性能与效率之间存在权衡,压缩率过高可能影响细粒度任务。那么,在实际应用中,我们应该如何找到这个平衡点,有没有一些通用的策略或指标?
2、文章中提到了多种Token压缩方法,例如基于变换、相似度、注意力等。这些方法各有优缺点,那么,在实际应用中,我们应该如何选择合适的方法?有没有一个选择的流程图或者决策树?
3、文章提到了未来可能的发展方向,包括跨模态协同压缩和原生高效架构。你认为哪一个方向更有前景?为什么?

原文内容


随着 GPT-4o、Gemini 3Pro 等模型的爆发,多模态大语言模型(MLLM)正在处理越来越长的上下文(Long Context)。


然而,一张高清图、一段长视频或长音频产生的 Token 数量往往是文本的数千倍,不仅挤占了宝贵的上下文窗口,更因自注意力机制的二次复杂度导致推理成本飙升。如何「给 Token 瘦身」?


近日,来自浙江大学、西湖大学等机构的研究者发布了首篇关于多模态长上下文 Token 压缩的系统性综述,已被 TMLR 2026 接收。该文提出了统一的分类体系,深入剖析了图像、视频、音频模态的压缩机制,为高效 MLLM 的研究指明了方向。



  • 论文标题:A Survey of Token Compression for Efficient Multimodal Large Language Models

  • 论文链接:https://arxiv.org/abs/2507.20198

  • 论文集:https://github.com/cokeshao/Awesome-Multimodal-Token-Compression

  • OpenReview:https://openreview.net/forum?id=G2od9JVHkE


多模态大语言模型(MLLM)在视觉问答、视频理解和语音交互等任务上展现了惊人的能力。这些能力很大程度上源于模型对长而复杂上下文的处理能力 —— 无论是高分辨率图像、长达数小时的视频,还是长语音输入。


然而,这种能力并非没有代价。随着 Token 数量的增加,Transformer 架构中自注意力机制(Self-Attention)的计算复杂度呈二次方增长。


Token 爆炸问题有多严重?


如下图所示,一段 90 分钟的视频如果不经处理,可能会产生高达 5400 万个 Token(假设 1fps 采样),这远远超过了当前顶尖模型(如 Gemini 2.5)的百万级上下文窗口。更重要的是,视觉和听觉数据中存在大量冗余 —— 研究表明,推理过程中超过 50% 的 Token 获得的注意力极低。



为了解决这一计算瓶颈,Token 压缩(Token Compression)成为了一种关键技术。它旨在训练或推理阶段,在保留关键语义信息的前提下,大幅减少传递给 LLM 的 Token 数量。


全新的分类体系:从模态到机制


由于不同模态的数据冗余特性各不相同(例如图像的空间冗余 vs. 视频的时空冗余),该综述首先依据数据模态将现有工作分为三大类:


  • 以图像为中心的压缩(Image-centric): 解决视觉数据的空间冗余。

  • 以视频为中心的压缩(Video-centric): 解决动态序列中的时空冗余。

  • 以音频为中心的压缩(Audio-centric): 解决声学信号中的时间和频谱冗余。


在此基础上,作者进一步根据底层算法机制,将方法细分为四种类型:


  • 基于变换(Transformation-based): 如池化、卷积,直接改变特征的物理形态。

  • 基于相似度(Similarity-based): 如聚类、合并,将相似的 Token 融合成一个。

  • 基于注意力(Attention-based): 利用 Attention Score 剪枝,保留高显著性区域。

  • 基于查询(Query-based): 使用 Learned Queries(如 Q-Former)或文本引导来筛选信息。



同时,作者总结了这四类机制的优缺点,为研究者选择合适的方法提供了直观参考。



1. 图像 Token 压缩:从空间冗余入手


图像 Token 是 MLLM 中最主要的输入来源之一。高分辨率图像虽然带来了丰富的细节,但也引入了巨大的计算开销。


  • 基于变换(Transformation-based): 如 InternVL 和 LLaVA-OneVision 采用的 Pixel Unshuffle 或双线性插值。这类方法不筛选 Token,而是通过改变特征的物理形态(如降低分辨率但增加通道数)来保留所有信息的结构化表示。

  • 基于相似度(Similarity-based): 如 ToMe 和 VisionZip。利用图像块(Patch)之间的视觉相似性,将冗余的背景或纹理进行聚类合并,减少计算量。

  • 基于注意力(Attention-based): 分为编码器端(如 PruMerge+)和解码器端(如 FastV)。前者利用 ViT 的注意力分数在进入 LLM 前剔除 Token,后者则发现 LLM 深层对视觉 Token 的关注极低,从而在推理过程中动态剪枝。

  • 基于查询(Query-based):如 Q-Former、LLaMA-VID 则通过少量的 Query Token 来「蒸馏」整张图像的信息。


2. 视频 Token 压缩:攻克时空冗余


视频不仅包含空间信息,还包含时间维度。视频压缩的核心挑战在于:如何在压缩海量帧的同时,保留运动和时间动态。


  • 时空冗余消除: 视频中相邻帧往往高度相似。Chat-UniVi 等方法采用基于相似度的聚类算法,将静态背景或重复帧合并为一个代表性 Token,仅保留发生变化的动态区域。

  • 查询引导的帧选择: 针对长视频理解,LongVU 等方法利用用户的文本提问作为 Query,计算每一帧与问题的相关性。这种方法能跳过大量无关帧,仅将与问题最相关的「关键帧」Token 输入 LLM,从而在有限的上下文窗口中处理小时级视频。



3. 音频 Token 压缩:处理静音与噪声


音频数据具有高采样率特性(1 秒音频可能包含数万采样点),且存在独特的冗余。


  • 序列降维: 由于音频通常被处理为 Mel 频谱图或一维序列,Qwen2-Audio 等模型采用一维卷积(1D Convolution)或 Token 堆叠(Stacking)技术,直接在时间维度上进行下采样,大幅缩短序列长度。

  • 跨模态语义过滤: 音频中常包含静音片段或背景噪声。SpeechPrune 等方法利用文本 - 音频的对齐关系,通过注意力机制识别并保留包含语音语义的有效片段,剔除无意义的噪声 Token,实现「听觉 - 语义」层面的高效压缩。


挑战与展望


尽管 Token 压缩技术已经取得了显著进展,综述最后也指出了当前面临的几个关键挑战:


  • 性能与效率的权衡: 极高的压缩率往往会导致细粒度任务(如 OCR、微小物体检测)的性能急剧下降。

  • 部署难题: 部分基于 Attention 动态剪枝的方法依赖于实时计算 Attention Score,这与 FlashAttention 等现代加速库不完全兼容。

  • 多轮对话的适应性: 现有的 Query-based 方法在多轮对话中可能需要针对新问题重新计算,效率受限。


未来方向


  • Omni-modal 联合压缩: 随着 GPT-4o 等全能模型的出现,利用音频引导视频压缩、文本引导图像压缩的跨模态协同压缩(Cross-modal Synergy)将是巨大的潜力点。

  • 原生高效架构: 从模型设计之初就通过线性 Attention 或状态空间模型(如 Mamba)来解决长序列问题,而非仅依靠后处理压缩。


总结


这篇综述为多模态大模型的效率优化提供了一份详尽的「路书」。对于希望在资源受限设备上部署 MLLM,或希望处理超长视频 / 文档的研究者和工程师来说,理解并应用 Token 压缩技术将是必经之路。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得跨模态协同压缩更有想象空间。它可以充分利用不同模态之间的相关性,实现更高效的压缩。例如,可以使用音频信息来引导视频压缩,或者使用文本信息来指导图像压缩。这种协同压缩方式可以更好地保留关键信息,同时减少冗余信息。

感觉像是在做一个算法选型问题啊。我的想法是,首先要明确自己的需求,包括对性能、效率、模型复杂度的要求。然后,可以根据这些需求,筛选出几种可能的方法。最后,可以通过实验对比,选择最适合自己的方法。可以考虑建立一个表格,对比不同方法的优缺点,以及适用场景,方便快速决策。

我个人更看好原生高效架构。感觉Token压缩有点像“亡羊补牢”,是在现有架构的基础上进行的优化。而原生高效架构则是从模型设计之初就考虑了效率问题,可以从根本上解决Token数量爆炸的问题。而且,原生高效架构也更容易与其他优化技术相结合,例如量化、剪枝等。

我觉得这两个方向都很重要,不能偏废。原生高效架构是基础,为Token压缩提供了更好的平台。而跨模态协同压缩则是锦上添花,可以进一步提升压缩效率。未来,这两个方向可能会相互融合,共同推动多模态大模型的发展。