CVPR2025论文提出新方法T*,解决长时视频理解中时序检索的“长视频大海捞针”难题,显著提升现有VLMs的性能。
原文标题:【CVPR2025】重新思考长时视频理解中的时序检索
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、T* 框架通过将时序检索转化为空间检索来提升效率,你认为这种思路还有哪些潜在的应用场景?
3、文章提到 LV-HAYSTACK 数据集包含 480 小时视频和 15,092 个人工标注实例,你认为高质量的标注数据在长时视频理解中有多重要?标注数据又会面临哪些挑战?
原文内容
来源:专知本文约1000字,建议阅读5分钟
高效理解长时视频仍然是计算机视觉中的一项重大挑战。
-
我们将时序检索问题重新定义为“长视频大海捞针”(Long Video Haystack)问题——即在成千上万个视频帧中,根据特定查询,从中找出最小数量(例如1到5帧)的相关帧。基于这一新颖设定,我们提出了 LV-HAYSTACK 数据集,这是首个专为提升时序检索质量与效率而构建的数据集,包含 480 小时视频与 15,092 个由人工标注的实例,可用于训练与评估。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上 时序 F1 分数仅为 2.1%。
-
受图像中视觉搜索机制启发,我们提出了一种轻量级时序检索框架 T*,将高昂的时序检索过程重新转化为空间检索问题。T* 借助图像中常用的强大视觉定位技术,并引入了一种可适应的“时空变焦”机制,能够在时间与空间两个维度上进行精细搜索。大量实验证明,T* 与现有方法集成后可显著提升长时视频理解的性能。在 32 帧的推理预算下,T* 可将 GPT-4o 在 LONGVIDEOBENCH XL 子集上的表现从 50.5% 提升至 53.1%,将 LLaVA-OneVision-OV-72B 的表现从 56.5% 提升至 62.4%。



