智源研究院开源Video-XL-2:单卡高效处理万帧超长视频理解

智源开源Video-XL-2,单卡可处理万帧视频,长视频理解SOTA!性能优异,速度更快,或将在影视分析、异常检测等领域发挥重要作用。

原文标题:万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

原文作者:机器之心

冷月清谈:

智源研究院联合上海交通大学等机构发布新一代超长视频理解模型Video-XL-2。该模型在效果、长度和速度三个维度上全面优化了多模态大模型对长视频内容的理解能力。在性能方面,Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。在长度方面,支持在单张显卡上高效处理长达万帧的视频输入。在速度方面,大幅提升了处理效率,编码2048帧视频仅需12秒。Video-XL-2的核心组件包括视觉编码器、动态Token合成模块以及大语言模型。模型采用了四阶段渐进式训练策略,并引入了分段式的预装填策略和基于双粒度KV的解码机制等效率优化策略。实验结果表明,Video-XL-2在多个长视频评测基准上超越现有轻量级开源模型,并在时序定位任务中表现出色。此外,该模型还展现出处理超长视频和快速预填充的优势。Video-XL-2在影视内容分析、异常行为监测等多个实际场景中具有重要的应用潜力。

怜星夜思:

1、Video-XL-2在监控视频异常检测方面的应用,除了文中提到的斗殴事件,你觉得还能检测哪些类型的异常行为?这些异常行为的检测有什么实际意义和社会价值?
2、Video-XL-2模型中提到的“分段式的预装填策略”和“基于双粒度KV的解码机制”听起来很专业,有没有大佬能用更通俗易懂的语言解释一下,它们分别解决了什么问题,以及为什么能提高效率?
3、Video-XL-2在影视作品内容总结方面有什么应用潜力?设想一下,如果用这个模型来总结一部你喜欢的电影或电视剧,你希望它能总结出哪些关键信息?

原文内容

机器之心发布

机器之心编辑部


长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。


近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。相较于上一版本的 Video-XL,该模型在多个维度全面优化了多模态大模型对长视频内容的理解能力:


  • 效果更佳:Video-XL-2 在长视频理解任务中表现出色,在 MLVU、Video-MME、LVBench 等主流评测基准上达到了同参数规模开源模型的领先水平。

  • 长度更长:新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。

  • 速度更快:Video-XL-2 大幅提升了处理效率,编码 2048 帧视频仅需 12 秒,显著加速长视频理解流程。


目前,Video-XL-2 的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 


  • 项目主页:https://unabletousegit.github.io/video-xl2.github.io/

  • 模型 hf 链接:https://huggingface.co/BAAI/Video-XL-2

  • 仓库链接:https://github.com/VectorSpaceLab/Video-XL


技术简介


图 1:Video-XL-2 的模型架构示意图


在模型架构设计上,Video-XL-2 主要由三个核心组件构成:视觉编码器(Visual Encoder)、动态 Token 合成模块(Dynamic Token Synthesis, DTS)以及大语言模型(LLM)


具体而言,Video-XL-2 采用 SigLIP-SO400M 作为视觉编码器,对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。随后,DTS 模块对这些视觉特征进行融合压缩,并建模其时序关系,以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至 Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。


图 2:Video-XL-2 的训练阶段示意图


在训练策略上,Video-XL-2 采用了四阶段渐进式训练的设计 ,逐步构建其强大的长视频理解能力。前两个阶段主要利用图像 / 视频 - 文本对,完成 DTS 模块的初始化与跨模态对齐;第三阶段则引入更大规模,更高质量的图像与视频描述数据,初步奠定模型对视觉内容的理解能力;第四阶段,在大规模、高质量且多样化的图像与视频指令数据上进行微调,使 Video-XL-2 的视觉理解能力得到进一步提升与强化,从而能够更准确地理解和响应复杂的视觉指令。


图 3. Chunk-based Prefilling


图 4. Bi-granularity KV Decoding


此外,Video-XL-2 还系统性设计了效率优化策略。首先,Video-XL-2 引入了分段式的预装填策略(Chunk-based Prefilling,如图 3 所示):将超长视频划分为若干连续的片段(chunk),在每个 chunk 内部使用稠密注意力机制进行编码,而不同 chunk 之间则通过时间戳传递上下文信息。该设计显著降低了预装填阶段的计算成本与显存开销。


其次,Video-XL-2 还设计了基于双粒度 KV 的解码机制(Bi-granularity KV Decoding,如图 4 所示):在推理过程中,模型会根据任务需求,选择性地对关键片段加载完整的 KVs(dense KVs),而对其他次要片段仅加载降采样后的稀疏的 KVs(sparse KVs)。这一机制有效缩短了推理窗口长度,从而大幅提升解码效率。得益于上述策略的协同优化,Video-XL-2 实现了在单张显卡上对万帧级视频的高效推理,显著增强了其在实际应用场景中的实用性。


实验效果


图 5:Video-XL-2 的主要对比结果


表 1:Video-XL-2 的全面对比结果


在模型具体表现方面,Video-XL-2 在 MLVU、VideoMME 和 LVBench 等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代 Video-XL 实现了显著提升。尤其值得关注的是,在 MLVU 和 LVBench 上,Video-XL-2 的性能已接近甚至超越了如 Qwen2.5-VL-72B 和 LLaVA-Video-72B 等参数规模高达 720 亿的大模型。


此外,在时序定位(Temporal Grounding)任务中,Video-XL-2 也表现出色,在 Charades-STA 数据集上取得了领先的结果,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。


图 6:Video-XL-2 输入长度的对比展示


除了效果上的提升,Video-XL-2 在视频长度方面也展现出显著优势。如图 6 所示,在单张 24GB 消费级显卡(如 RTX 3090 / 4090)上,Video-XL-2 可处理长达千帧的视频;而在单张 80GB 高性能显卡(如 A100 / H100)上,模型更支持万帧级视频输入,远超现有主流开源模型。相较于 VideoChat-Flash 和初代 Video-XL,Video-XL-2 显著拓展了视频理解的长度并有效降低了资源需求,为处理复杂的视频任务提供了有力的支撑。


图片

图 7:Video-XL-2 Prefilling 速度的对比展示


图 8:Video-XL-2 Prefilling 速度和输入帧数的关系图


最后,Video-XL-2 在速度上也展现出卓越性能。如上图所示,Video-XL-2 仅需 12 秒即可完成 2048 帧视频的预填充。更重要的是,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。相比之下,Video-XL 与 VideoChat-Flash 在输入长视频条件下的工作效率明显落后于 Video-XL-2。


应用潜力


以下是一些具体的例子,将展示 Video-XL-2 在实际应用中的巨大潜力:


Example 1 电影情节问答:



Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?


Answer: The phone’s color is red


Example 2 监控异常检测:



Question: Is there any unexpected event happening in this surveillance footage?

Answer: There is physical altercation between the customers and the store employees


Example 3: 影视作品内容总结


图片


Example4:游戏直播内容总结


图片


得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2 在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

楼上的朋友说的很有道理,我补充一点,其实结合一些行业特定的知识,还能做更多。比如在建筑工地,可以检测工人是否佩戴安全帽;比如在交通路口,可以检测是否有车辆违章行驶。这些都能有效降低事故发生的概率,保障社会安全。

我希望它能像一个专业的影评人一样,不仅仅是剧情复述,而是能分析出导演的拍摄手法、演员的表演亮点、配乐的运用以及影片的社会意义。如果能把这些都总结出来,那绝对是影评界的福音!

谢邀,人在实验室,刚看完paper。除了上面两位提到的,我认为更重要的是,这种模型能够学习到一种“常态”的概念。也就是说,通过大量正常视频的学习,模型可以判断出哪些行为是“不正常”的,哪怕这些行为我们事先没有明确定义。这种泛化能力才是AI在安防领域最有价值的地方,可以应对各种突发情况。

如果用Video-XL-2来总结我最喜欢的《星际穿越》,我希望它能总结出剧情梗概、主要人物关系、关键科学概念(比如黑洞、虫洞、时间膨胀)以及影片想要表达的主题(比如爱、希望、人类的未来)。最好还能提取出一些经典台词,那就更完美了!

作为一个UP主,我更关心的是它能不能自动剪辑出精彩片段,配上合适的字幕和音乐,生成一个高质量的电影解说视频。这样我就能解放双手,有更多时间去创作其他内容了!

除了斗殴这种比较明显的肢体冲突,我觉得还可以检测像突然倒地、长时间滞留、逆行、攀爬等行为。检测这些异常行为的实际意义和社会价值非常大,比如可以及时发现老人或病人突发疾病,减少意外事故的发生;可以预防和制止犯罪行为,维护社会治安;可以提高公共场所的安全管理水平,保障人民群众的生命财产安全。

打个比方,你去图书馆借书,分段式预填充就是你先把书按照章节分开,一章一章的看。双粒度KV解码就是你在看每一章的时候,重点看关键段落,其他部分就快速浏览。 这样你就能在最短的时间内掌握书的核心内容啦!是不是更容易理解了?

这个问题问的好!我尝试用更技术的语言解释一下:分段式预填充解决了长序列处理时计算量爆炸的问题,通过将长视频分成小段,在段内进行密集的注意力计算,段间则用时间戳传递上下文,降低了复杂度。双粒度KV解码则是在推理时根据重要性选择性加载完整或降采样的KVs,减少了推理窗口长度,从而提升解码效率。核心思想都是trade-off,在计算量和精度之间找到平衡。

简单来说,“分段式预填充”就像把一部超长电影分成几个章节来处理,每个章节内部看得仔细,章节之间只需要知道大概发生了什么。“双粒度KV解码”就像看电影时,重要的剧情仔细看,不重要的剧情就快速略过。这样就能在保证理解剧情的前提下,大大节省时间和精力。