CVPR2025:重新审视长时视频理解中的时序检索,解决“长视频大海捞针”难题

CVPR2025论文提出新方法T*,解决长时视频理解中时序检索的“长视频大海捞针”难题,显著提升现有VLMs的性能。

原文标题:【CVPR2025】重新思考长时视频理解中的时序检索

原文作者:数据派THU

冷月清谈:

本文重新审视了长时视频理解中的时序检索范式,并指出了当前最先进视觉语言模型(VLMs)中存在的基础性问题。研究将时序检索重新定义为“长视频大海捞针”问题,提出了首个专为提升时序检索质量与效率而构建的数据集 LV-HAYSTACK,该数据集包含 480 小时视频与 15,092 个由人工标注的实例。实验结果表明,当前最先进的检索方法在 LONGVIDEOBENCH 子集上时序 F1 分数仅为 2.1%,存在显著的性能空白。受图像视觉搜索启发,研究提出了一种轻量级时序检索框架 T*,将时序检索转化为空间检索问题,并引入“时空变焦”机制进行精细搜索。实验证明,T* 与现有方法集成后可显著提升长时视频理解的性能。

怜星夜思:

1、研究将时序检索问题定义为“长视频大海捞针”,你觉得这个比喻恰当吗?还有没有其他更形象的比喻?
2、T* 框架通过将时序检索转化为空间检索来提升效率,你认为这种思路还有哪些潜在的应用场景?
3、文章提到 LV-HAYSTACK 数据集包含 480 小时视频和 15,092 个人工标注实例,你认为高质量的标注数据在长时视频理解中有多重要?标注数据又会面临哪些挑战?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

高效理解长时视频仍然是计算机视觉中的一项重大挑战。


本文重新审视了长时视频理解中的时序检索范式,并针对所有当前最先进(SOTA)长上下文视觉语言模型(Vision-Language Models, VLMs)中存在的一个基础性问题进行了探讨。
本研究的贡献主要有两点:
  1. 我们将时序检索问题重新定义为“长视频大海捞针”(Long Video Haystack)问题——即在成千上万个视频帧中,根据特定查询,从中找出最小数量(例如1到5帧)的相关帧。基于这一新颖设定,我们提出了 LV-HAYSTACK 数据集,这是首个专为提升时序检索质量与效率而构建的数据集,包含 480 小时视频与 15,092 个由人工标注的实例,可用于训练与评估。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上 时序 F1 分数仅为 2.1%
  2. 受图像中视觉搜索机制启发,我们提出了一种轻量级时序检索框架 T*,将高昂的时序检索过程重新转化为空间检索问题。T* 借助图像中常用的强大视觉定位技术,并引入了一种可适应的“时空变焦”机制,能够在时间与空间两个维度上进行精细搜索。大量实验证明,T* 与现有方法集成后可显著提升长时视频理解的性能。在 32 帧的推理预算下,T* 可将 GPT-4o 在 LONGVIDEOBENCH XL 子集上的表现从 50.5% 提升至 53.1%,将 LLaVA-OneVision-OV-72B 的表现从 56.5% 提升至 62.4%

我们的代码、基准测试工具与模型已包含在补充材料中提供。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


高质量的标注数据绝对是长时视频理解的基石!没有好的标注,模型学到的就是垃圾。想象一下,如果标注的人自己都理解错了视频内容,那模型还能学对吗?

其实在金融领域也可以借鉴。比如,把股票价格的时间序列转换成某种空间表示,然后用图像识别的方法来预测股票走势,感觉挺有搞头的,哈哈!当然,风险自负。

俺觉得像是考古挖掘!得先找到线索,然后小心翼翼地扒开一层层土,才能找到埋藏在深处的文物(关键帧)。而且,文物可能还破损了,对应到检索问题就是目标帧可能不完整或者质量不高。

个人觉得在生物信息学领域也有潜力。例如,将基因序列的演化过程视为时间维度上的变化,然后将其转化为基因组空间中的拓扑结构分析,也许能发现一些新的规律。

同意楼上!标注质量直接决定了模型的天花板。从技术角度来说,可以考虑引入主动学习(Active Learning)来减少标注工作量,让模型先选出它认为最难判断的样本,然后让人工标注,提高标注效率。

这种时空转换的思路很有意思。我觉得可以用在机器人导航上,把机器人的运动轨迹转换成空间中的路径规划问题,简化计算。

我觉得这个比喻挺贴切的,大海捞针强调了信息量巨大,目标信息稀少且难以定位。不过,如果从另一个角度看,也可以比喻成“在垃圾堆里找宝贝”,更强调了干扰信息多,需要去伪存真。

从信息检索的角度,我觉得可以类比成“高噪声信道中的信号检测”。“大海捞针”更形象,但“高噪声信道”更学术,都点明了有效信息被大量无关信息淹没的难点。

标注数据的挑战也很大。首先是成本高,长时视频标注非常耗时耗力。其次是主观性,不同的人对视频内容的理解可能存在差异,这会影响标注的一致性。最后就是如何处理模糊和不确定的情况,比如视频中出现了一个不明确的事件,标注者如何判断它是否相关?