FOCUS:高效长视频关键帧提取,MLLM性能提升显著

FOCUS:无需训练,高效提取长视频关键帧,提升MLLM性能高达11.9%,平均仅观察<2%帧。

原文标题:ICLR 2026|FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

原文作者:机器之心

冷月清谈:

本文介绍了一种名为 FOCUS 的新型关键帧提取算法,旨在解决长视频理解中 MLLM 处理海量视频帧时面临的计算和上下文预算挑战。传统方法要么需要训练模型,要么需要对所有帧进行预处理,计算成本高昂。而 FOCUS 创新性地将关键帧选择建模为组合纯探索(CPE)多臂赌博机问题,通过两阶段的“探索-利用”策略,无需遍历全帧即可自适应地锁定高价值时间段,并在段内精挑关键帧。该方法无需训练,可即插即用,直接接入现有 MLLM 的推理流程,不依赖特定模型结构与训练方式。实验结果表明,在超过 20 分钟的长视频 VQA 基准测试中,FOCUS 相较于均匀抽帧可带来高达 11.9% 的性能提升,且平均只需观察不到 2% 的帧即可实现这一收益,显著降低了推理计算开销。FOCUS 的效率优势使其能够作为前置模块,在不同模型和任务上复用,为 MLLM 长视频应用提供更可控的成本与表现。

怜星夜思:

1、FOCUS 算法中,将关键帧选择建模为组合纯探索(CPE)多臂赌博机问题,这个思路非常新颖。大家觉得这种建模方式的核心优势是什么?除了视频关键帧提取,CPE 多臂赌博机还能应用在哪些领域?
2、文章提到 FOCUS 算法无需训练,可直接接入现有 MLLM 的推理流程。那么,在实际应用中,如果 MLLM 本身的性能不够强,FOCUS 还能发挥作用吗?它的性能瓶颈会是什么?
3、FOCUS 算法平均仅需观察不到 2% 的帧即可达到较好的性能提升,这在提升效率的同时,是否会遗漏一些关键信息?有没有可能存在一些特定的视频内容,会导致 FOCUS 算法失效?

原文内容


本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。


文章速览


长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。


现有关键帧方案通常还需先用 CLIP/BLIP 等视觉编码器全视频逐帧预扫描,即使最终只保留少量帧,前置计算成本依然很高。


本文提出 FOCUS:将关键帧选择建模为组合纯探索(CPE)多臂赌博机,以自适应的 “探索 — 利用” 策略在无需遍历全帧的前提下先锁定高价值时间段,再在段内精挑关键帧。


  • 无需训练、即插即用:可直接接入现有 MLLM(如 GPT-4o 或 Qwen)的推理流程,不依赖特定模型结构与训练方式。


  • 效果更强:在 >20 分钟 的长视频 VQA benchmark 设定下,FOCUS 选帧相较均匀抽帧可带来 11.9% 的性能提升。


  • 成本更低:不依赖降采样等预过滤手段,平均只需观察 <2% 的帧即可达到上述收益,显著降低推理计算开销。



  • 论文标题:FOCUS: Efficient Keyframe Selection for Long Video Understanding

  • 论文链接:https://arxiv.org/abs/2510.27280

  • 代码仓库:https://github.com/NUS-HPC-AI-Lab/FOCUS


背景:长视频理解为什么难?


长视频理解是多模态大模型(MLLM)中最为困难的问题之一。一段小时级、30fps 的标准视频往往包含十万量级以上的帧数。


对于主流 MLLM 而言,无论是先将视频帧编码为视觉 token、还是进一步进行跨模态交互建模,计算与上下文开销都会随帧数快速增长:“全量帧输入” 在绝大多数真实推理场景中并不现实。


因此,“挑选关键帧” 几乎是所有长视频系统的必经步骤。最常见的均匀抽帧(降采样)虽然能控成本,却容易错过集中在短片段中的决定性证据,导致模型在核心信息缺失的情况下 “盲答”。


现有关键帧方法大致分为两类:一类是 training-based,训练轻量选择器从全量帧中挑子集,但面临标注困难、组合爆炸带来的训练与工程成本,以及对下游模型结构 / 训练方式的依赖;另一类是 training-free 的检索式方案,用 CLIP、BLIP 等编码器计算 “帧 — 文本” 相关性再选帧。


后者虽免训练,却往往需要先对全视频逐帧预编码,面对小时级视频时单视频计算开销仍可能达到约 FLOPs 量级,难以部署。


因此,我们需要一种更高效的选帧方式:在不牺牲准确性的前提下,避免对全视频逐帧预扫,降低推理代价,用尽可能少的观测帧数快速定位与 query 相关的高价值片段,真正满足现实系统的效率与可用性要求。


方法:FOCUS 的两阶段探索 - 利用


基于上述动机,本文提出 FOCUS,一个无需训练、可即插即用的关键帧选择算法。FOCUS 的核心思想是:将 “在预算内找到最有用的帧” 视为一个组合探索问题 —— 算法不必先看完整视频再做选择,而是可以通过少量试探性采样(探索)逐步缩小候选范围,再将预算集中到最有价值的区域(利用)。



具体而言,FOCUS 将关键帧选择建模为组合纯探索(CPE)的多臂赌博机问题,并采用两阶段的 coarse-to-fine 策略:


第一阶段:定位高价值时间段(粗粒度探索)。


我们把长视频切分为若干时间段,将每个时间段视作一个 “臂”。FOCUS 在有限预算下,对不同时间段进行自适应抽样:对 “可能与 query 更相关” 的时间段分配更多采样,对明显无关的时间段快速减少采样。通过维护每个时间段的估计收益与不确定性(置信界),算法可以在不遍历全视频的情况下,把注意力收敛到少量候选高价值时间段。


第二阶段:在段内精挑关键帧(细粒度利用)。


当候选时间段被锁定后,FOCUS 在这些时间段内部进一步选择帧:同样通过 “少量试探 + 置信驱动” 的方式,把帧预算集中到最相关的画面上,输出最终关键帧集合供下游 MLLM 推理。



FOCUS 的效率优势使其可以作为一个前置模块,直接插入现有 MLLM 推理 pipeline,在不同模型、不同任务上复用。


实验:即插即用的长视频理解利器


为了验证 FOCUS 的通用性与有效性,作者在四个公开视频问答(Video QA)基准上进行了评测,并选择了四种常用的 MLLM 作为下游推理模型,包括 GPT-4oQwen2-VLLLaVA-OVLLaVA-Video 等。




作者进一步地将 FOCUS 与目前最有代表性的关键帧选择方法进行了对比。



结果表明:在长视频场景(例如 >20 分钟 的设定)下,FOCUS 相比均匀抽帧带来最高 11.9% 的性能提升。同时,FOCUS 在不依赖降采样等预过滤手段的情况下,平均仅需观察 <2% 的帧即可达到上述收益,显著降低了关键帧选择与推理阶段的总体计算开销。


分析:高效定位视频关键信息


1. 可视化:FOCUS 能更精准地找到与 query 相关的证据片段


作者对若干典型样例进行可视化分析:在长视频中,FOCUS 通过两阶段探索快速将注意力收敛到少量高价值片段,再在片段内部挑出证据帧,使得输入给 MLLM 的帧更 “信息密集”,从而提升回答质量。



2. 效率提升:相比全帧预扫的选帧范式,FOCUS 的端到端开销更可控


FOCUS 的效率优势在于:它的选择过程本身就是省帧的,能够在探索阶段动态跳过大量无关区域,避免将计算预算花在 “无用的全量预扫” 上,相对于基线方法大大降低推理开销。



同时 FOCUS 提供了清晰的预算控制接口:当系统更关注性能时,可以适当增加探索预算;当系统更关注吞吐 / 延迟时,可以通过调整超参数收紧预算。



总结


长视频理解的核心难点在于:视觉 token 随帧数快速膨胀,均匀抽帧又容易漏掉关键证据;而现有关键帧方法存在着训练代价高、依赖模型结构的问题,或者虽免训练仍需全帧预编码,难以满足真实系统的效率要求。


FOCUS 将选帧建模为组合纯探索,通过两阶段 “探索 — 利用” 在不遍历全帧的情况下定位与 query 相关的高价值片段;平均仅观察 <2% 帧即可在长视频设定下带来最高 +11.9% 的准确率提升。它可作为即插即用的推理组件,为 MLLM 长视频应用提供更可控的成本与表现。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


将关键帧选择建模为组合纯探索(CPE)的多臂赌博机问题,其巧妙之处在于它借鉴了强化学习中的经典框架,将视频理解任务中的关键帧选择看作是一个在不确定环境中进行决策的过程。每个“臂”代表视频中的一个时间段或帧,算法通过“拉动”这些臂(即观察对应的视频内容)来获取收益(例如,与查询的相关性),目标是在有限的尝试次数(计算资源)内,找到收益最高的臂的组合。

这种建模方式的关键优势在于:

1. 自适应探索-利用策略:CPE算法能够根据每个臂的历史表现动态调整探索和利用的比例。对于不确定性高的臂(即那些尚未被充分探索的时间段或帧),算法会倾向于进行更多的探索,以获取更多的信息;而对于已经有较高收益的臂,算法会倾向于进行更多的利用,以最大化总收益。这种自适应的策略使得算法能够更有效地利用计算资源,避免在不相关的区域浪费时间。

2. 无需全量预扫描:与传统的关键帧选择方法(例如基于CLIP的检索)不同,CPE算法不需要预先对整个视频进行编码。它可以在探索的过程中逐步缩小搜索范围,只关注那些最有希望包含关键信息的区域。这大大降低了计算复杂度,特别是在处理长视频时。

3. 理论保证:CPE算法在理论上具有一定的收敛性保证,即在一定的条件下,它可以找到最优的关键帧组合。

总而言之,将关键帧选择建模为CPE多臂赌博机问题,能够充分利用强化学习的理论和方法,实现高效、准确的关键帧选择,从而提升长视频理解的性能。

针对不同 MLLM 和任务调整 FOCUS 的参数,使其达到最佳效果属于“炼丹”环节了,我提供一些思路:

1. 了解你的 MLLM:不同的 MLLM 对视觉信息的处理方式不同。有些模型可能更擅长捕捉细节,有些模型可能更关注全局信息。因此,你需要根据 MLLM 的特点来调整 FOCUS 的参数。

* 如果你的 MLLM 对细节敏感,可以考虑增加关键帧的数量,并减少时间段划分的粒度,以便让模型能够获取更多的局部信息。
* 如果你的 MLLM 更关注全局信息,可以考虑减少关键帧的数量,并增加时间段划分的粒度,以便让模型能够更好地把握视频的整体结构。

2. 针对特定任务进行优化:不同的任务对关键帧的要求也不同。例如,对于需要精确时间定位的任务(如视频编辑),你需要选择能够捕捉到关键时间点的帧;而对于需要理解视频内容大意的任务(如视频摘要),你需要选择能够代表视频主要内容的帧。

* 对于时间定位任务,可以尝试使用更 aggressive 的探索策略,以便更快地找到包含关键时间点的帧。
* 对于视频摘要任务,可以尝试使用更 conservative 的利用策略,以便选择更具代表性的帧。

3. 利用验证集进行调参:最有效的方法还是建立一个验证集,包含各种类型的视频和任务,然后使用网格搜索或贝叶斯优化等方法,在验证集上寻找最佳参数组合。

* 在调参过程中,可以关注一些关键指标,如 MLLM 的准确率、召回率、F1 值等。同时,也要注意控制计算成本和推理延迟。

一点个人经验:不要盲目追求最高的准确率,而要根据实际应用场景,在准确率、计算成本和推理延迟之间找到一个平衡点。另外,多看看论文,了解一下其他研究者是如何调参的,可以少走弯路。

这是一个好问题!FOCUS 的即插即用性是它的一个重要优势,但要真正发挥它的潜力,针对不同的 MLLM 和任务进行参数调整是必不可少的。

首先,要关注的是预算参数。这包括总的帧预算、探索阶段的预算占比等等。一般来说,对于计算资源紧张的场景,应该适当收紧预算;而对于需要更高准确率的任务,可以适当放宽预算。同时,也要根据 MLLM 的计算能力进行调整。例如,如果 MLLM 处理单帧的速度很快,就可以适当增加帧预算。

其次,置信度参数也很重要。这个参数控制了探索和利用的平衡。较高的置信度会倾向于更多的探索,可以避免陷入局部最优;而较低的置信度则会倾向于更多的利用,可以加快收敛速度。最佳的置信度取决于视频内容的复杂程度和任务的难度。

最后,时间段划分的粒度也需要考虑。较粗的粒度可以减少计算量,但可能会错过一些细节;而较细的粒度可以捕捉更多信息,但会增加计算负担。一般来说,对于内容变化较慢的视频,可以使用较粗的粒度;而对于内容变化剧烈的视频,则需要使用较细的粒度。

至于调参经验,我的建议是先进行一些初步的实验,观察 FOCUS 在不同参数下的表现。然后,可以使用一些优化算法(如网格搜索、贝叶斯优化等)来自动寻找最佳参数组合。此外,还可以利用一些可视化工具来分析 FOCUS 的决策过程,从而更好地理解它的工作原理,并据此进行参数调整。

我觉得这个思路挺妙的!把选关键帧比作赌博,每次“探索”就像是试探不同的时间段,而“利用”就是把更多精力放在更有价值的时间段上。这样就避免了像无头苍蝇一样扫描所有帧,大大节省了计算资源。而且,赌博机的概念也方便算法根据收益和不确定性来自适应地分配算力,更智能。

从信息论的角度来看,这个思路的巧妙之处在于它主动地减少了冗余信息的处理。传统的关键帧提取方法,无论是否基于训练,都需要对所有帧进行一定程度的分析,这实际上是在处理大量与任务无关的信息。而CPE的多臂赌博机模型则是在逐步逼近最优解的过程中,不断排除低价值的时间段,从而降低了整体的计算复杂度。

VQA能行,视频摘要和行为识别肯定也能安排上!毕竟FOCUS的思路就是找到重点,这些任务都需要这个。

不过,也得看具体情况。视频摘要可能需要让模型关注故事的连贯性,行为识别可能需要关注动作发生的时序。可以考虑在FOCUS的基础上,加入一些时序建模的模块,让它更好地捕捉视频中的时间信息。

FOCUS 最大的优势就是效率高,不需要像 CLIP 那样对所有帧都进行预处理。但劣势可能在于,如果视频内容变化比较均匀,关键信息分散在各个帧中,那么 FOCUS 的效果可能不如均匀抽帧。 未来的改进方向我觉得可以考虑结合视频的音频信息,因为音频通常也能反映视频的内容,可以帮助 FOCUS 更快地定位到关键片段。

我觉得文章里提到的“探索预算”应该是一个关键超参数。如果探索预算太少,可能算法还没找到关键片段就停止了,导致性能下降。如果探索预算太多,虽然能找到更优的关键帧,但计算开销也会相应增加。 另外,两阶段探索中,粗粒度探索和细粒度探索的比例也很重要。如果粗粒度探索不够充分,可能一开始就锁定了错误的时间段,导致后续的细粒度探索也无济于事。

我认为即使 MLLM 性能不够强,FOCUS 仍然能起到一定的作用。毕竟,FOCUS 相当于帮忙过滤掉了大量无用信息,让 MLLM 在更精华的数据上进行推理,多少应该会有提升。但如果 MLLM 太弱,再好的关键帧也可能无法正确理解,这时候瓶颈就在 MLLM 本身了。

这就像给一个眼神不好的人递放大镜,虽然能看清楚一点,但如果他本身就是个色盲,那放再大也没用!所以 MLLM 菜是原罪,FOCUS 顶多算锦上添花,不能雪中送炭!

我觉得核心优势在于它的探索-利用机制。不需要预先知道全局信息,就能逐步聚焦到关键部分,这很像人类学习的过程。应用领域的话,感觉可以用于推荐系统,根据用户的反馈动态调整推荐策略,或者用于A/B测试,快速找到最优方案。

万一那个 98% 没看到的帧里,藏着价值连城的彩蛋呢?这不就亏大了!我觉得 FOCUS 这种算法,最怕的就是那种反转剧情的视频,前面全是铺垫,最后几帧才是高潮。要是没看到最后,那不就等于白看了吗?

我觉得肯定会遗漏一些信息,毕竟只看了 2%。如果视频的关键信息不是集中在几个片段,而是分散在各个角落,那 FOCUS 可能就抓瞎了。比如一个风景纪录片,每个画面都很重要,这时候用 FOCUS 可能就不太合适。

学术一点说,这种建模方式将问题转化为了一个序贯决策问题,核心优势在于其自适应性。它通过不断试错来学习不同“臂”的收益分布,从而做出最优决策。CPE多臂赌博机在资源分配、临床试验设计、以及金融投资组合优化等方面都有广泛的应用。

从信息论的角度来看,FOCUS 的作用是提高输入 MLLM 的信息的信噪比。即使 MLLM 自身的解码能力有限,更高质量的输入也能提升其性能。然而,如果信噪比已经很高,或者 MLLM 的解码能力远低于输入信息的复杂度,那么 FOCUS 的收益就会递减。这时,瓶颈就可能在于 MLLM 的模型容量或训练数据。

从概率角度来说,任何采样方法都存在遗漏关键信息的可能。FOCUS 的优势在于其自适应性,能够尽可能地将采样集中在高价值区域。然而,如果视频内容呈现出高度随机性,或者关键信息与 query 的相关性难以通过少量观测来判断,那么 FOCUS 的性能可能会下降。例如,一些实验性的艺术视频,可能不适合用这种方法处理。

多臂赌博机啊,那不就是拆盲盒嘛!哪个盲盒出好东西的概率高就多拆哪个。除了视频,感觉用在相亲网站上也挺好,先浅聊几个,哪个看着靠谱就重点发展!