VideoRoPE++:面向长视频理解的时空建模新方案

上海AI Lab等机构推出VideoRoPE++,一种新颖的视频位置编码方法,有效提升长视频理解能力,并在多个任务中超越现有技术。

原文标题:ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

原文作者:机器之心

冷月清谈:

上海AI Lab联合复旦、港中文提出了VideoRoPE++,旨在解决RoPE在处理具有复杂时空结构的视频时面临的挑战。该研究通过V-RULER基准测试,揭示了现有RoPE变体在时间建模上的不足,容易受到周期性干扰的影响。VideoRoPE++通过引入低频时间分配、对角线布局和可调时间间隔,有效提升了模型在长视频检索、视频理解和视频幻觉等任务中的性能。此外,研究还提出了YaRN-V外推方案,进一步提高了模型在训练范围之外的外推能力。实验结果表明,VideoRoPE++在多个长视频理解基准测试中表现优异,尤其是在处理长距离依赖关系和应对干扰方面具有显著优势。

怜星夜思:

1、VideoRoPE++通过低频时间分配来减少周期性干扰,这个思路在其他领域有什么潜在的应用场景吗?例如,在金融时间序列分析中,能否用于过滤掉某些周期性的噪音?
2、YaRN-V外推方案只在时间维度进行频率插值,而保持空间维度不变,这是出于什么考虑?这种不对称的处理方式在其他多模态任务中是否适用?
3、VideoRoPE++在长视频理解任务中表现出色,那么它在计算资源上的开销如何?与传统的RoPE相比,训练和推理的成本会增加多少?

原文内容


本文第一作者魏熙林,复旦大学计算机科学技术学院人工智能方向博士生,研究方向是多模态大模型、高效长上下文;目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。


一、背景介绍


虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。


VideoRoPE++ 这项工作首先进行了全面分析,确定了将 RoPE 有效应用于视频所需的五个关键特性,而先前的工作并未充分考虑这些特性。


作为分析的一部分,这项工作构建了一个全新的评测基准 ——V-RULER,其中的子任务 “带干扰项的大海捞针(Needle Retrieval under Distractor, NRD)” 表明:当前 RoPE 变体在缺乏合理时间维度建模策略时,容易被周期性干扰项误导,表现不稳定。


基于分析,作者提出了 VideoRoPE++,它具有三维结构,旨在保留时空关系。VideoRoPE 的特点包括低频时间分配以减轻周期性碰撞、对角布局以保持空间对称性,以及可调整的时间间隔以解耦时间和空间索引。


此外,为提升模型在训练范围之外的外推能力,作者团推还提出了外推方案 ——YaRN-V。该方法仅在低频时间轴上进行插值,同时保持空间维度的稳定性与周期性,从而实现在长视频场景下的结构一致性与外推鲁棒性。在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE++ 始终优于先前的 RoPE 变体。



  • Paper: https://github.com/Wiselnn570/VideoRoPE/blob/main/VideoRoPE_plus.pdf

  • Project Page: 

    https://wiselnn570.github.io/VideoRoPE/

  • Code:

    https://github.com/Wiselnn570/VideoRoPE/



二、分析



左图:为了展示频率分配的重要性,基于 VIAH(a),作者提出了一个更具挑战性的 benchmark: V-RULER,子任务 Needle Retrieval under Distractors 如(b)所示,其中插入了相似图像作为干扰项。右图:与 M-RoPE 相比,VideoRoPE++ 在检索中更具鲁棒性,并且不容易受到干扰项的影响。



上图:M-RoPE 的时间维度局限于局部信息,导致对角线布局。下图:VideoRoPE++ 有效利用时间维度进行检索。M-RoPE 在定位目标图像上有效,但在多选问题中表现不佳,因为它主要通过垂直位置编码来定位图像,而非时间特征,导致时间维度未能捕捉长距离依赖关系,关注局部信息。相比之下,空间维度则捕捉长距离语义信息,导致 M-RoPE 在频率分配设计上表现较差。


三、VideoRoPE ++ 设计


作者团队提出了 VideoRoPE++,一种视频位置嵌入策略,优先考虑时间建模,通过低频时间分配(LTA)减少振荡并确保鲁棒性。它采用对角线布局(DL)以保持空间对称性,并引入可调时间间隔(ATS)来控制时间间隔,以及提出 YaRN-V 对训练范围以外的位置信息进行外推。VideoRoPE++ 有效地建模了时空信息,从而实现了鲁棒的视频位置表示。


1. 低频时间分配 (LTA): 



考虑一个基于 RoPE 的 LLM,头部维度为 128,对应 64 个旋转角度 θn,分布在不同维度上。每个图示中,用平行的蓝色平面表示 cos (θnt) 在 3 维上的表现。


(a)对于 M-RoPE,时间依赖性由前 16 个高频旋转角度建模,导致振荡和位置信息失真。低维度间隔较短,振荡周期性使得远距离位置可能具有相似信息,类似哈希碰撞(如红色平面所示),容易引发干扰,误导模型。


(b)相比之下,VideoRoPE++ 通过最后 16 个旋转角度建模时间依赖性,具有更宽的单调间隔。时间建模不再受振荡影响,显著抑制了干扰项的误导效应。


2. 对角线布局 (DL) :



原始 1D RoPE(Su et al., 2024)未包含空间建模。M-RoPE(Wang et al., 2024b)虽然采用 3D 结构,但引入了不同帧间视觉标记索引的差异。相比之下,VideoRoPE++ 实现了平衡,保留了原始 RoPE 一致的索引增长模式,并引入了空间建模。优点包括:1)保留视觉标记的相对位置,避免文本标记过于接近角落;2)保持原始 RoPE 编码形式,相邻帧的空间位置信息增量与文本标记增量一致。


3. 可调时间间隔 (ATS) :


为了缩放时间索引,作者团队引入缩放因子 δ 来对齐视觉和文本标记之间的时间信息。假设 τ 为标记索引,起始文本(0 ≤ τ < Ts)的时间、水平和垂直索引为原始标记索引 τ。对于视频输入(Ts ≤ τ < Ts + Tv),τ − Ts 表示当前帧相对于视频开始的索引,通过 δ 缩放控制时间间距。对于结束文本(Ts + Tv ≤ τ < Ts + Tv + Te),时间、水平和垂直索引保持不变,形成线性进展。根据可调节的时间间距设计,视频位置编码(VideoRoPE++)中 τ-th 文本标记或(τ, w, h)-th 视觉标记的位置信息(t, x, y)如式(7)所示。



其中,w 和 h 分别表示视觉块在帧中的水平和垂直索引。


4. 基于 YaRN-V 的外推能力



在视频理解任务中,时空维度的差异性对位置编码提出了特殊挑战:空间信息(如纹理与边缘)通常具有局部性和周期性,而时间信息则跨越更长且不确定的范围,依赖更广的上下文建模。为解决这一不对称性,作者提出了 YaRN-V,一种仅沿时间维度进行频率插值的外推方法,同时保持空间维度不变。该选择性设计在保留空间结构的同时,有效提升了长视频建模中的时间泛化能力。YaRN-V 的设计依据于空间与时间维度在频域特性上的本质差异:空间维度处于高频段,训练中已完成一个完整周期,因此模型能自然泛化至未见过的空间位置;而时间维度处于低频段,训练范围内无法覆盖完整周期,因此仅对时间轴插值便可实现有效的长时外推。


四、实验结果


长视频检索任务:


作者团队展示了 VideoRoPE++ 与其他 RoPE 变体在 V-RULER 上的性能。Vanilla RoPE 和 TAD-RoPE 在视觉训练上下文外具备一定外推能力,但超出极限后失效。相比之下,VideoRoPE 和 M-RoPE 在测试上下文内表现优越,且 VideoRoPE 始终优于 M-RoPE,展现出更强鲁棒性。



长视频理解任务:


如表所示,作者团队在三个长视频理解基准上比较了 VideoRoPE++ 与现有 RoPE 变体(Vanilla RoPE、TAD-RoPE 和 M-RoPE)。VideoRoPE++ 在这些基准上优于所有基线方法,展示了其鲁棒性和适应性。在 LongVideoBench、MLVU 和 Video-MME 上,VideoRoPE++ (Qwen2 基座) 在 64k 上下文长度下分别比 M-RoPE 提高了 2.91、4.46 和 1.66 分,突显了其在捕捉长距离依赖关系和处理具有挑战性的视频任务中的卓越能力。



外推任务:



在本次实验中,作者针对超出训练范围的长序列输入,系统评测了多种位置外推方案。在 V-RULER 基准中的 Lengthy Multimodal Stack 任务上,作者提出的方法 YaRN-V 以 81.33 的得分显著领先,较最强基线 YaRN 提升 13.0 分,稳健应对混合模态干扰下的超长位置索引。相比之下,传统位置编码方案已完全失效,而 NTK-Aware(67.66)和 MRoPE++(62.30)等方法虽有一定泛化能力,但整体表现仍有限。


实验结果表明,YaRN-V 能更好支撑视频大模型在长输入场景下的时间对齐,避免位置溢出带来的性能衰退,是多模态长序列理解的理想方案。


五、总结


本文确定了有效位置编码的四个关键标准:2D/3D 结构、频率分配、空间对称性和时间索引缩放。通过 V-NIAH-D 任务,作者展示了先前 RoPE 变体因缺乏适当的时间分配而易受干扰。因此,提出了 VideoRoPE++,采用 3D 结构保持时空一致性,低频时间分配减少振荡,对角布局实现空间对称性,并引入可调节时间间距和外推方案 YaRN-V。VideoRoPE++ 在长视频检索、视频理解和视频幻觉任务中优于其他 RoPE 变体。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我更倾向于认为,这个方法的核心在于分析并区分不同维度信息的频率特性。在金融领域,更常见的是使用傅里叶变换之类的工具来分析周期性。VideoRoPE++的思路或许可以借鉴到其他具有复杂时空或多维结构的数据分析中,关键在于如何针对特定数据的特性进行调整和优化。

我觉得这种处理方式的关键在于,它假设了空间维度和时间维度具有不同的泛化能力。空间信息的泛化能力更强,是因为它在训练数据中已经得到了充分的覆盖。在其他多模态任务中,如果也存在类似的维度差异,就可以考虑采用类似的不对称处理方式。例如,在语音识别中,语谱图的空间特征可能比时间序列特征更容易泛化,就可以考虑对时间序列进行更强的外推。

从工程角度来看,计算资源确实是需要重点关注的点。我猜测作者在设计VideoRoPE++的时候,应该也考虑到了这个问题。也许他们会在后续的工作中,进一步优化算法,降低计算开销。或者,可以尝试使用一些现有的模型加速技术,例如量化、剪枝等等,来降低模型的计算复杂度。

金融时间序列问题确实复杂,直接套用可能效果有限。但是,可以借鉴VideoRoPE++中“关注低频信息”的思想。在金融领域,长周期趋势往往比短期波动更重要,也许可以通过类似的方法来弱化高频噪声,突出长期趋势。另外,我觉的如果能把这部分跟量化结合,也许能碰撞出不一样的火花

我认为这个地方是本文的精髓之一。空间信息,比如图像的纹理,房屋的结构,本身就具有很强的局部性,而时间是全局的。所以在做外推的时候,只需要考虑时间即可,这是我个人的理解,不一定对。

这个问题很有意思!个人觉得这个思路在金融时间序列分析中确实有潜力。金融数据常常受到各种周期性因素的影响,比如季节性、节假日效应等等。如果能把这些周期性噪音通过类似低频时间分配的方法给过滤掉,可能就能更清晰地看到数据背后的真实趋势,提高预测的准确性。但是,具体应用还需要仔细研究金融数据本身的特点,找到合适的频率划分方法才行。

这个问题问到了关键!虽然文章没有直接提到计算开销,但可以推测,引入3D结构和更复杂的时间建模肯定会增加计算量。具体的增加幅度,需要看具体的实现细节和硬件配置。如果计算资源有限,可能需要考虑如何优化VideoRoPE++,例如使用更高效的算法或者进行模型压缩。

文章里提到了,空间信息通常具有局部性和周期性,训练中已经“见过”了完整的周期,所以可以泛化;而时间信息跨度更大,训练时可能没见过完整的周期,需要外推。这个思路我觉得挺巧妙的,抓住了时空信息的本质差异。至于其他多模态任务,我觉得要具体问题具体分析,看看不同模态的信息在频率特性上是否有类似的差异。

我认同你的看法。更复杂的模型结构通常意味着更高的计算成本。但是,如果VideoRoPE++能够显著提升模型性能,例如提高准确率或者降低错误率,那么即使计算成本略有增加,也是值得的。需要在性能和成本之间做一个权衡。