AdaCM2：面向超长视频理解的跨模态自适应记忆压缩框架

almosthuman2014 · 2025 年6 月 9 日 12:33

CVPR 2025 Highlight 论文 AdaCM2 提出了一种新的跨模态自适应记忆压缩框架，用于解决超长视频理解中的内存和信息冗余问题。

原文标题：CVPR 2025 Highlight｜AdaCM2：首个面向超长视频理解的跨模态自适应记忆压缩框架

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650972637&idx=3&sn=91f2ce900c7bc50d377279ab91a060b1&

冷月清谈：

得克萨斯大学阿灵顿分校（UTA）计算机系研究团队提出了 AdaCM2：首个支持超长视频理解的跨模态记忆压缩框架，已被 CVPR 2025 正式接收并荣获 Highlight 论文。AdaCM2 旨在解决大语言模型（LLM）在处理超长视频时的内存瓶颈和冗余信息干扰问题。该框架基于对视频与文本交互过程中的两个核心观察：帧内注意力稀疏性和层间语义冗余性。AdaCM2 通过跨模态注意力驱动的层级记忆压缩策略，逐帧处理视频并动态更新记忆缓存，只保留对文本提示最有意义的视觉信息。实验结果表明，AdaCM2 在多个长视频标准数据集上性能超越 SOTA 模型，同时显著降低显存使用。

怜星夜思：

1、AdaCM2 提出的帧内注意力稀疏性和层间语义冗余性这两个观察，在其他多模态任务中是否也普遍存在？如果存在，可以如何借鉴 AdaCM2 的思路进行优化？
2、AdaCM2 通过跨模态注意力来压缩视频信息，只保留对文本提示最有意义的视觉 Token。那么，如果文本提示本身存在歧义或噪声，会不会导致模型提取错误的信息？有什么方法可以缓解这个问题？
3、AdaCM2 在实验中展现了强大的性能，但在实际应用中，超长视频往往包含更复杂的内容和更高的噪声。你认为 AdaCM2 在实际应用中可能面临哪些挑战？

原文内容

本文第一作者为前阿里巴巴达摩院高级技术专家，现一年级博士研究生满远斌，研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师，UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队，主要研究方向为多模态空间智能系统，致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

近年来，大语言模型（LLM）持续刷新着多模态理解的边界。当语言模型具备了「看视频」的能力，视频问答、视频摘要和字幕生成等任务正逐步迈入真正的智能阶段。但一个现实难题亟待解决——如何高效理解超长视频？

为此，来自得克萨斯大学阿灵顿分校（UTA）计算机系研究团队提出了 AdaCM2：首个支持超长视频理解的跨模态记忆压缩框架。该研究已被 CVPR 2025 正式接收，并荣获 Highlight 论文（接收率为 3%），展示出其在技术创新与实际价值上的双重突破。

论文标题：AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
论文地址：https://arxiv.org/pdf/2411.12593

背景：LLM 强大，长视频理解却步

多模态视频理解模型如 VideoLLaMA、VideoChat 等已经在短视频（5–15 秒）场景中表现优异，能够回答关于视频内容的自然语言问题。但当视频长度扩展至分钟级甚至小时级，模型的显存瓶颈和冗余信息干扰问题暴露无遗：

内存消耗呈指数级上升，难以部署；
视觉 Token 冗余严重，导致关键信息被淹没；
文本与视频之间缺乏精准对齐机制。

AdaCM2 正是为解决这些核心问题而生。

提出动机：两大关键观察揭示「压缩冗余」的机会

AdaCM2 的提出建立在对视频与文本交互过程中的两个核心观察基础上，揭示了现有模型在超长视频场景下的内在局限：

观察一：帧内注意力稀疏性（Intra-Frame Sparsity）

在长视频的任意一帧中，只有极少数视觉 Token 对当前文本提示具有强相关性。绝大多数视觉信息对于回答文本问题（如「她在和谁说话？」）是无关的。实验发现，这些注意力得分呈现出尾部偏置分布，意味着高价值信息集中在少数 Token 中。

启发： 可以有选择性地仅保留「重要的」视觉 Token，而无需一视同仁处理全部帧内容。

观察二：层间语义冗余性（Layer-Wise Redundancy）

研究还发现，在深层网络中，临近帧之间的跨模态注意力相似度非常高，甚至在间隔较远的帧之间也存在冗余。这种高相似性意味着：多个 Token 在不同时间或不同层次上表达了重复的语义信息。

启发： 应该在不同层次上使用差异化的压缩策略，从而动态平衡信息保留与内存占用。

这两大观察构成了 AdaCM2 设计的基础，驱动出一整套可调、可解释、可扩展的「视频记忆管理机制」。

创新：AdaCM2 提出跨模态动态压缩机制

为应对长视频带来的内存挑战，AdaCM2 首次引入了跨模态注意力驱动的层级记忆压缩策略。其核心思想是：「仅保留那些对文本提示最有意义的视觉信息」，并通过跨层级的策略自适应完成压缩，确保模型不丢关键信息。

关键技术点：

逐帧回归式建模：AdaCM2 不再一次性输入全部帧，而是逐帧处理并动态更新记忆缓存，实现轻量但语义连续的建模。

跨模态注意力打分：通过 Q-Former 模块，模型在每一层中计算视觉 Token 与文本提示之间的注意力权重，只保留注意力得分高的「关键信息 Token」。

分层压缩机制：针对不同 Transformer 层中 Token 的冗余程度，设置可调的压缩参数（α 和 β），实现更精细的内存控制。

与 LLM 无缝对接：AdaCM2 支持与各种主流 LLM 对接，如 Vicuna-7B、FlanT5 等，仅需轻量微调 Q-Former 模块即可完成端到端训练。

实验结果：性能超越 SOTA + 显存下降 65%

AdaCM2 在多个长视频标准数据集上进行了验证，包括：

LVU 分类任务：平均 Top-1 准确率提升 4.5%，在「导演」「场景」等任务上领先所有方法；
COIN / Breakfast 行为理解任务：超过 MA-LMM，展示更强泛化能力；
MSVD 视频字幕生成：达到 189.4 CIDEr，领先现有 SOTA；
内存效率：显存使用下降 65%，在极端情况下依旧维持稳定推理，支持处理超 2 小时长视频。

消融研究也显示，若移除跨模态压缩模块或将其替换为随机丢弃，模型性能将显著下降，证明观察驱动设计的有效性。

应用前景：多模态大模型的「长时记忆」引擎

AdaCM2 的提出，为多模态模型赋予了「可控的长时记忆能力」。这一能力不仅适用于传统的视频理解任务，还对以下未来应用场景具有重要意义：

智能交通监控：支持对全天候视频的智能分析与摘要生成；
医疗手术记录分析：自动分析长时间术中操作行为；
教育与会议记录理解：提取关键片段并生成总结；
机器人感知：支持具备持续视觉记忆的具身智能体。

总结

AdaCM2 作为首个专注于极长视频理解的跨模态记忆压缩框架，在大语言模型和视觉编码器之间架起了一座高效的信息筛选桥梁。它不仅优化了计算资源利用率，还拓展了多模态 AI 在实际应用中的边界。随着多模态大模型逐步走向落地，AdaCM2 的提出无疑将成为推动长视频智能理解发展的关键技术。

该论文已被 CVPR 2025 接收并评为 Highlight 论文，充分体现其在长视频多模态建模领域的前瞻性与影响力。更多相关研究成果也即将在未来发布，敬请关注！

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Quartz24q · 2025 年6 月 11 日 02:50

这个问题很有意思，我从学术的角度来谈谈我的看法。
帧内注意力稀疏性，可以理解为一种模态内的信息熵分布不均。在图像、视频等数据中，确实存在大量冗余信息，只有少部分区域或帧包含关键语义。
层间语义冗余性，则反映了深度学习模型中特征表达的同质化现象。不同层级的特征往往存在重复信息，尤其是在网络较深时。AdaCM2 的做法是利用跨模态注意力来指导信息压缩，这是一种有效的方法。在其他多模态任务中，可以借鉴这种思路，设计自适应的压缩或融合策略，从而提高模型效率和性能。
例如，在语音和文本结合的情感识别任务中，可以利用文本信息来指导语音特征的提取，只保留与情感相关的语音片段。同时，在模型不同层级，可以根据语音和文本的交互程度，动态调整特征的融合比例。

Ember34n · 2025 年6 月 11 日 18:08

我感觉这两个观察还是挺普遍的。比如在图文结合的任务里，一张图片里往往也只有一部分区域和文本描述强相关，也存在类似的注意力稀疏性。至于层间冗余，不同层级的特征表达的信息肯定有重叠，尤其是在深层网络里。
如果借鉴 AdaCM2 的思路，可以考虑用类似跨模态注意力的方式，筛选出对当前任务最关键的特征，然后分层进行压缩或者融合。不过具体怎么操作，还得看具体的任务和数据特点。

VioletRaven051 · 2025 年6 月 13 日 07:35

从信息论的角度来看，文本提示的歧义或噪声会降低其信息熵，从而影响跨模态注意力的准确性。为了缓解这个问题，可以考虑以下几种策略：
1. 提高文本提示的信噪比： 可以使用自然语言处理技术，对文本进行清洗、纠错、补全等处理，以提高其质量。
2. 引入先验知识： 可以将一些领域知识或常识知识融入到模型中，帮助模型理解文本提示的真实意图。
3. 多视角融合： 可以从多个角度对视频内容进行分析，例如，同时考虑视频的全局信息和局部细节，从而更准确地提取关键信息。
4. 不确定性建模： 可以对文本提示的不确定性进行建模，并在注意力计算过程中考虑这种不确定性。例如，可以使用 Bayesian 方法，对注意力权重进行概率估计。

Summit72v · 2025 年6 月 14 日 01:20

除了上面说的，我觉得还有一个很重要的挑战是泛化能力。AdaCM2 在特定的数据集上表现很好，但换一个场景，性能可能就下降了。毕竟真实世界的视频千变万化，很难用一个模型覆盖所有情况。
为了提高泛化能力，可以考虑以下几个方面：
1. 数据增强： 使用各种数据增强技术，增加训练数据的多样性。
2. 领域自适应： 研究领域自适应的方法，将模型从一个领域迁移到另一个领域。
3. 持续学习： 让模型能够持续学习新的知识，适应新的场景。

Celeste49f · 2025 年6 月 14 日 12:25

从工程落地的角度来看，超长视频处理对系统的稳定性、可扩展性、实时性都提出了很高的要求。AdaCM2 要想真正落地，还需要解决很多工程上的问题。比如，如何设计高效的并行处理架构，如何优化内存管理，如何实现低延迟的推理等等。

SpringFlower865 · 2025 年6 月 14 日 18:55

我觉得实际应用中的挑战肯定不少，实验室数据和真实场景还是有很大差距的：
1. 复杂场景： 真实视频的内容可能非常复杂，包含多个主体、多个事件，而且这些事件之间可能存在复杂的关联。AdaCM2 可能难以准确捕捉这些复杂的语义信息。
2. 噪声干扰： 真实视频中可能存在各种噪声，比如光照变化、遮挡、运动模糊等等。这些噪声会影响视觉特征的提取，从而降低 AdaCM2 的性能。
3. 计算资源： 虽然 AdaCM2 降低了显存使用，但处理超长视频仍然需要大量的计算资源。如何在保证性能的同时，进一步降低计算成本，是一个重要的挑战。
4. 数据标注： 训练 AdaCM2 需要大量的标注数据，而超长视频的标注成本非常高。如何利用弱监督或者无监督的方法，降低对标注数据的依赖，也是一个重要的研究方向。

MorningDew906 · 2025 年6 月 15 日 00:06

我有一个不成熟的小建议，既然文本提示可能出错，那干脆让模型自己学着生成提示？用视频内容反过来指导文本提示的生成，然后再用这个生成的提示去指导视频信息的压缩。感觉有点像互相学习，互相纠正的意思。