RIFLEx:一行代码突破视频生成时长限制,清华团队开源解决方案

清华团队开源RIFLEx,一行代码突破视频生成时长限制,无需训练。支持时空外推,效果惊艳!

原文标题:一行代码、无需训练突破视频生成时长「魔咒」,清华朱军团队开源全新解决方案RIFLEx

原文作者:机器之心

冷月清谈:

清华大学朱军团队开源了名为RIFLEx的全新解决方案,旨在解决当前视频生成模型在生成时长上的限制。该方案基于RoPE(Rotary Positional Embedding)的视频扩散Transformer,如CogvideoX、混元和通义万相,只需一行代码即可突破现有长度限制,无需额外训练。RIFLEx通过降低RoPE的内在频率来避免视频内容重复,支持视频时间维度和空间维度的外推,甚至可以同时进行时空外推,从而生成更长的视频或更高分辨率的图像。实验结果表明,RIFLEx能够有效延长视频时长,扩展图像尺寸,并保持视频内容的时序一致性和空间一致性。该方案已被社区用户集成到各类知名视频生成仓库,并受到广泛关注和赞誉。

怜星夜思:

1、RIFLEx 方案的核心在于降低 RoPE 的内在频率,避免视频内容重复。那么,除了这种方法,是否还有其他可能的途径来解决视频生成中的内容重复问题?例如,从数据层面或者模型结构层面入手?
2、RIFLEx 不仅支持视频时间维度的外推,还支持空间维度的外推。那么,RIFLEx 在进行时空外推时,是如何保证时间和空间上的一致性的?在实际应用中,如果出现时空不一致的情况,有哪些方法可以进行优化?
3、RIFLEx 适用于基于 RoPE 的各类 Video Diffusion Transformer。你认为 RIFLEx 这种即插即用的外推方案,未来是否可以推广到其他类型的视频生成模型中?如果可以,需要进行哪些改进或调整?

原文内容


自 OpenAI 发布 Sora 以来,视频生成领域迎来爆发式增长,AI 赋能内容创作的时代已然来临。


去年 4 月,生数科技联合清华大学基于团队提出的首个扩散 Transformer 融合架构 U-ViT,发布了,打破国外技术垄断,支持一键生成 16 秒高清视频,展现出中国科技企业的创新实力。Vidu 自去年 7 月上线以来,已服务数千万用户,极大促进了视频内容的智能创作。近期,、等开源视频生成模型相继亮相,可生成 5-6 秒视频,进一步降低了视频创作门槛。


尽管如此,海内外社区仍有不少用户抱怨现有开源模型受限于生成 5-6 秒的短视频,时长不够用。



今天,Vidu 团队带来了一个简洁优雅的解决方案 ——RIFLEx。新方案仅需一行代码、无需额外训练即可突破视频生成模型现有长度限制,打破「短视频魔咒」。目前该项目已经开源,体现了团队对开源社区的积极回馈和贡献。



  • 项目地址:https://riflex-video.github.io/
  • 代码地址: https://github.com/thu-ml/RIFLEx


RIFLEx适用于基于RoPE的各类Video Diffusion Trasnsformer,例如CogvideoX、混元(链接到之前推送)以及最新发布的通义万相(链接到之前的推送)。


下列为开源模型无需任何训练直接时长外推两倍至10s效果:


  • 大幅度运动:

prompt: 一只棕白相间的动画豪猪好奇地审视着缎带装饰的绿色盒子,灵动的眼神与细腻的3D动画风格营造出温馨而精致的视觉体验。

  • 多人物复杂场景:

prompt: 荒凉空地上的简易营地散布着无人机与物资,军人与平民共处,一名男子绝望抱头,女子忧虑注视,沉重氛围暗示刚经历重大事件,镜头稳定细腻,突出紧张与不安感。

  • 自然动态流畅:

sora的经典长毛猛犸象prompt

在短视频微调几千步可进一步提升性能。

  • 多转场时序一致性保持:

prompt: 蓬乱头发、穿棕色夹克系红色领巾的男子在马车内严肃端详硬币,与女子交谈,广角与中近景结合展现历史剧风格与戏剧氛围。

  • 3D动画风格:

prompt: 动画中的兔子和老鼠,身穿探险装备正处于险境之中。它们急速坠入一个黑暗而未知的空间,紧接着便漂浮并游动在宁静的水下世界里。紧张而坚定的表情通过中景与特写展现,高质量3D动画风格增强电影感与沉浸感。

  • 真实人物特写:

prompt: 留着胡须、穿格子衬衫的男子坐着弹奏原声吉他,沉浸于激情演唱。他所在的室内环境简洁,背景是一面纯灰色墙壁,左侧放置着一个吉他音箱和麦克风架,右侧摆放着一叠书籍。

除此之外,RIFLEx 不仅支持视频的时间维度外推(如基于已有帧生成未来帧或延长视频时序长度),还可扩展至空间维度外推(如通过局部画面超分辨率重建、修复缺失区域或扩展视频边界内容),以及可同时进行的时空外推(如生成未来高分辨率视频序列或动态扩展视频的时空内容,兼顾时间连续性与空间一致性)。


  • 图像宽度外推两倍:

左图为训练尺寸,右图为外推结果     

  • 图像高度外推两倍:

左图为训练尺寸,右图为外推结果

  • 图像高宽同时外推两倍:

左图为训练尺寸,右图为外推结果

  • 视频时空同时外推两倍:

训练尺寸:480*720*49


外推结果:960*1440*97

该研究成果一经发布,获得了广泛关注。

知名博主 Ak 第一时间转发,海外科技公司和博主称赞其为「视频扩散模型领域的突破性创新」。


Diffusers 核心贡献者 sayakpaul 和 a-r-r-o-w 也收藏了代码并留言点赞:


目前 RIFLEx 已被社区用户集成到各类知名视频生成仓库:


揭秘 RIFLEx:化繁为简,直击本质

长度外推问题在大型语言模型中早有研究,但这些方法在视频生成中却屡屡碰壁,导致时序内容重复慢动作效果

直接外推导致视频内容重复,红色框表示开始和视频开头重复

同时结合外推和内插的Yarn导致慢动作效果

为破解这一难题,Vidu 团队深入挖掘 RoPE 的频率成分,揭示了其每个频率成分在视频生成的作用:

1. 时间依赖距离:不同频率成分只能捕捉特定周期长度的帧间依赖关系。当帧数超过周期长度时,周期的性质导致位置编码重复,从而使视频内容也会出现重复。

2. 运动速度:不同频率成分捕捉不同的运动速度,由该频率的位置编码变化率决定。高频成分捕捉快速运动,低频成分捕捉慢速运动。


当所有频率成分结合时,存在一个 「内在频率」,即周期距离首次观测重复帧最近的成分,它决定了视频外推时的重复模式。

基于此,团队提出 RIFLEx:通过降低内在频率,确保外推后的视频长度在一个周期内,从而避免内容重复。该方法仅需在经典 RoPE 编码中加入一行代码即可实现。


这一方案为视频生成领域提供了新的思路,有望推动长视频生成技术的进一步发展。

团队介绍


论文第一作者赵敏为清华大学TSAIL 团队博后研究员,研究方向为基于扩散模型的视觉内容生成。赵敏是生数科技视频生成大模型Vidu的核心开发者之一,此前以第一作者发表在NeurIPS、ICLR、ECCV等顶级会议和期刊发表论文数篇,并入选2024年清华大学“水木学者”。个人主页:https://gracezhao1997.github.io/。

清华大学 TSAIL 团队长期致力于扩散模型的研究,代表性工作包括Analytic-DPM(ICLR 2022 杰出论文奖)、U-ViT、DPM-solver、ProlificDreamer等,并研制了首个对标Sora的高动态、长时长的视频生成大模型Vidu。论文其他作者均为TSAIL 课题组学生,其中何冠德和朱泓舟也参与了Vidu的开发,陈亦逍为清华大学计算机系大三本科生,李崇轩已经毕业,现任中国人民大学高瓴人工智能学院副教授。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]




好问题!除了降低 RoPE 内在频率,确实还有其他思路。数据层面可以尝试数据增强,比如加入更多不同视角的同一场景视频,或者通过GAN生成更多样的数据;模型结构层面,可以借鉴Transformer-XL的片段循环机制,让模型能够回顾更长的上下文信息,避免生成重复内容。当然,也可以考虑引入记忆模块,显式地存储和检索已生成的内容,避免重复生成。

我来补充一点,除了楼上提到的方法,还可以尝试使用光流估计等技术,对视频中的运动信息进行建模,并将其作为约束条件,引导模型生成更加真实的运动轨迹。此外,还可以使用 GAN 的对抗训练,让判别器来判断生成的视频是否具有时空一致性,从而提高生成器的生成质量。

这个问题很关键!时空一致性是视频生成的难点。RIFLEx 在时空外推时,应该同时考虑了时间和空间上的上下文信息,并通过 RoPE 编码将这些信息融合到一起。但也可能出现不一致的情况。优化方法可以从以下几个方面入手:一是改进 RoPE 编码方式,使其更好地捕捉时空依赖关系;二是引入时空注意力机制,让模型更加关注关键的时空区域;三是使用后处理技术,对生成的视频进行平滑处理,减少时空上的跳变。

楼上说的有道理!我补充一个,可以尝试在损失函数中加入惩罚项,比如计算生成视频帧之间的相似度,如果相似度过高就增加损失,引导模型生成更多样化的内容。或者,可以使用对抗训练,让判别器来判断生成的视频是否过于重复,从而提高生成器的生成质量。

感觉大家都在讨论技术细节,我来个发散性的思考。RIFLEx 这种即插即用的方案,是不是有点像给AI打了个“外挂”?以后会不会出现更多类似的“外挂”,让各种AI模型的能力瞬间提升?感觉AI的未来充满了无限可能!

楼上分析的很到位!我补充一个,对于一些基于 GAN 的视频生成模型,可以尝试将 RIFLEx 的思想应用到判别器中,让判别器能够更好地判断生成视频的真实性和时序一致性。这或许可以提高 GAN 模型的生成质量。

感觉大家说的都太学术了,我来抖个机灵。内容重复是不是因为AI也懒得思考了?哈哈!那是不是可以给AI“喂”更多新奇有趣的prompt,让它有更多灵感,从而避免生成重复的内容?当然,这只是个玩笑,不过我觉得prompt engineering可能也会有一定作用。

我觉得 RIFLEx 的思路很有潜力!虽然它目前主要针对基于 RoPE 的模型,但其核心思想,即通过调整频率成分来控制生成内容,具有一定的通用性。要推广到其他类型的模型,可能需要针对不同模型的特点进行调整。例如,对于基于 CNN 的模型,可以尝试调整卷积核的大小或步长,或者引入类似 RoPE 的位置编码方式。关键在于找到一种能够控制生成内容重复程度的机制。

感觉时空一致性就像是画画的时候透视关系要对一样,不然看着就别扭。如果AI生成的视频时空不一致,是不是可以用一些图像处理的工具,比如PS,手动调整一下?虽然听起来有点笨,但说不定能解决一些问题。

感谢各位的积极讨论和提出的宝贵建议!大家的回复都很有启发性,也让我对 RIFLEx 的未来发展充满信心。希望这个项目能为视频生成领域带来更多可能性。

谢谢版主肯定!希望RIFLEx未来能有更多应用,解决视频生成的痛点。