低成本高性能视频生成:港城大&华为Pusa仅用500美元炼成一流模型

港城大&华为Pusa项目,基于FVDM理论,仅用500美元成本,数据减少超千倍,即可训练出一流视频模型,解锁多种视频生成任务。

原文标题:数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了

原文作者:机器之心

冷月清谈:

香港城市大学刘耀芳与华为香港研究所小艺团队合作推出Pusa项目,该项目基于FVDM(帧感知视频扩散模型)理论,探索出一条极低成本微调大规模预训练视频模型的有效路径。Pusa通过对预训练模型进行非破坏性微调,仅需500美元的训练成本,数据量减少超2500倍,即可达到甚至超越官方I2V的效果,同时解锁了图生视频、首尾帧、视频过渡、视频拓展等多种应用,并保留了文生视频能力。Pusa的核心在于FVDM的向量化时间步变量(VTV),它允许对每一帧进行独立的噪声扰动,从而实现更灵活、更细致的扩散过程。Pusa的成功实践表明,通过巧妙的方法和策略,即使是有限的资源也能训练出高性能的视频生成模型,为视频生成领域带来了低成本、高灵活性的新时代。

怜星夜思:

1、Pusa项目仅用少量成本就达到了很好的效果,你觉得这种低成本微调策略,未来在哪些领域有应用前景?又会带来哪些影响?
2、文章中提到FVDM通过向量化时间步变量解决了传统标量时间步的局限性,你认为这个思路还能应用到哪些其他AI领域?
3、Pusa项目开源了代码库和数据集,你认为这对视频生成领域的发展有什么积极意义?同时也可能带来哪些潜在风险?

原文内容


FVDM & Pusa 一作:刘耀芳目前在香港城市大学攻读博士学位,导师为著名数学家 Prof. Raymond Chan (陈汉夫) 及 Prof. MOREL Jean-Michel。他也曾在腾讯 AI Lab 实习,主导 / 参与 EvalCrafter , VideoCrafter 等工作,其研究兴趣包括扩散模型,视频生成等;项目主管:刘睿,香港中文大学 MMLab 博士,华为香港研究所小艺团队技术负责人。


扩散模型为图像合成带来了革命,其向视频领域的延伸虽潜力巨大,却长期受困于传统标量时间步对复杂时序动态的束缚。我们去年提出的帧感知视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV),赋予每一帧独立的时间演化路径,从根本上解决了这一难题,显著提升了时序建模能力。


然而,范式的转变需要更多实践的检验和普及。为此,我们与华为香港研究所小艺团队合作进一步推出了 Pusa 项目。Pusa 不仅是 FVDM 理论的直接应用和验证,更重要的是,它探索出了一条极低成本微调大规模预训练视频模型的有效路径。



  • 论文标题:Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

  • FVDM 论文:https://arxiv.org/abs/2410.03160

  • Pusa 主页 / 代码库: https://github.com/Yaofang-Liu/Pusa-VidGen


具体而言,Pusa 通过对预训练模型如 Wan-T2V 14B 进行非破坏性微调,仅需 500 美金训练成本即可达到比 Wan 官方 I2V(至少O(100k)美金的训练成本)更好的效果,成本降低超 200 倍,数据更是减少超 2500 倍!不仅如此,Pusa-Wan 同时解锁了图生视频、首尾帧、视频过渡、视频拓展等广泛应用并且还保留了文生视频能力。



Vbench 图生视频测试样例


文本指令:一只大白鲨在海里游泳(a great white shark swimming in the ocean)


图片


文本指令:一个戴着墨镜坐在汽车驾驶座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)


图片


文本指令:一头棕白相间的奶牛正在吃干草(a brown and white cow eating hay)


图片


此外,Pusa-Mochi 更是只要 100 美金训练成本便可实现如下效果。


图生视频效果对比



首尾帧效果对比



更多首尾帧样例


图片


T2V 结果与基础模型 Mochi 对比


图片


目前,Pusa 的完整代码库、训练数据集和训练代码已全面开源,旨在推动整个领域的共同进步。


方法:FVDM 的帧感知核心与 Pusa 的巧妙实现


FVDM 方法


沿袭自图像扩散模型,当前的视频扩散模型也采用一个标量时间变量图片 ,该变量统一应用于正在生成的视频的所有帧。在视频生成的背景下,这种方法无法捕捉视频序列中各帧间的动态关系。为了解决这个限制,我们引入了一个向量化时间步变量图片 ,定义为:


图片


其中 图片 是视频帧数,图片 表示第图片帧的独立时间变量。这种向量化允许对每一帧进行独立的噪声扰动,从而实现更灵活、更细致的扩散过程。


我们将传统的前向随机微分方程 (SDE) 扩展以适应我们的向量化时间步变量。每一帧 图片 经历由其特定的图片控制的独立高斯分布的噪声扰动过程,可表示为:


图片


继而,我们可将所有帧的 SDE 集成为整个视频的单个 SDE。我们将视频定义为 图片。我们可以将视频表示为一个矩阵整个视频图片的集成前向 SDE 为:


图片


其中图片是整个视频的漂移系数,图片是扩散系数的对角矩阵。


在反向过程的背景下,我们定义了一个集成的反向 SDE 来封装跨联合帧的依赖关系:


图片


基于分数的模型 图片 被设计为在整个视频序列上操作。模型的学习目标是近似分数函数:


图片


模型参数图片的优化问题表述为


图片


其中图片是一个正权重函数。


模型实现


  • 网络架构适配


我们以 Mochi1 及 Wan 这类先进的开源视频模型作为基础。为了引入向量化时间步,我们对其原始的标量时间步输入机制进行了扩展。


具体而言,原先接受 (B)(批量大小)形状标量时间步的模块,被修改为能够处理 (B, N)(批量大小,帧数)形状的向量化时间步。通过正弦位置编码,这些 (B, N) 的时间步被转换为 (B, N, D) 的嵌入表示,并通过 adaLN-Zero 等条件化机制作用于 Transformer 的注意力和 MLP 层。


关键在于,这种改造是「非破坏性的」:当所有帧的图片 都被设置为相同时,模型的行为与基础模型完全一致,从而完整保留了其强大的基础生成能力。


  • 训练策略与惊人效率


在 FVDM 论文中我们以及发现,由于各帧拥有独立噪声,整体组合空间爆炸(以 16 帧为例,组合共有 图片 种),训练极难收敛。


FVDM 独创的概率性时间步采样训练策略 (PTSS) 成功解决了这个问题:在训练时,我们以概率图片为每帧采样随机独立的时间步,以概率图片为所有帧采样相同的时间步,如此解耦时序动态与基础生成能力的学习


FVDM 论文实验结果表明该策略可大大加速收敛且取得较原模型 Latte 更好的效果



而对于 Pusa,我们还可以简化策略,得益于对基础模型的非破坏性改造,在训练初始模型已经具备充足基础能力,我们只需在此基础上进行少量独立时间步微调便可掌握时序动态控制能力


Pusa 的「十八般武艺」:零样本解锁多样化视频任务,效果惊艳


基于 FVDM 的 VTV 机制和 Pusa 的高效微调,Pusa 能够通过在 VTV 图片中为不同帧设置不同的时间策略来控制噪声扰动以实现多样化的视频生成任务如可将输入图像作为任意帧,图片不加噪或图片加少量噪声(某些情况下会减少输入图像与生成内容间差异),其余帧保持 T2V 噪声来进行图生视频。 Pusa 的 VTV 机制为更多样的帧级控制采样算法和更细致的视频生成任务打开了大门。



总结与展望:Pusa 引领视频生成进入低成本、高灵活新时代


FVDM 理论通过其核心的向量化时间步变量 (VTV) 为视频生成带来了根本性的变革。而 Pusa 项目则以其惊人的低成本和高效的微调策略,成功地将这一理论付诸实践,并将其推广到强大的预训练模型之上。我们热切欢迎社区的贡献与合作,共同提升 Pusa 的性能,扩展其能力,并探索更多可能性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题让我想到了股票预测。如果把每一天的股票价格看作一个独立的事件,用向量化的时间步来模拟不同因素对股价的影响,也许能提高预测的准确性。当然,股市有风险,投资需谨慎!

开源代码库和数据集极大地降低了研究门槛,可以吸引更多的人参与到视频生成领域的研究中来,加速技术创新和应用落地。同时,开源也有利于学术界的交流和合作,促进知识共享和技术进步。但潜在风险在于,开源技术可能被滥用,例如用于生成虚假视频或侵犯他人权益,需要加强监管和伦理规范。

想到一个比较实际的问题:如果大家都用开源的数据集训练模型,会不会导致生成的视频内容越来越同质化?毕竟数据决定了模型的能力上限。所以我觉得在享受开源便利的同时,也要鼓励大家积极探索新的数据来源和训练方法。

我认为低成本微调策略在教育领域有很大的应用前景。比如,可以针对特定学科或知识点,利用少量数据微调预训练模型,生成个性化的教学视频或互动内容,从而降低教育资源的制作成本,提高教学效率。影响方面,可能会促进教育资源的普及和个性化发展,但也需要关注模型偏见和数据安全等问题。

我觉得开源最直接的好处就是可以促进技术的普及。以前很多视频生成技术掌握在少数大公司手里,现在有了Pusa的开源项目,更多的人可以学习和使用这些技术,甚至可以基于Pusa进行二次开发,创造出更多的应用场景。但同时也需要注意知识产权保护,避免出现抄袭和侵权行为。

我觉得这种策略对小型创业公司或者独立开发者非常友好。以前训练一个视频模型需要大量的资金和数据,现在有了Pusa这样的方案,他们就可以用更少的资源来开发自己的AI应用,比如短视频创作工具、虚拟形象定制等等。但同时也可能加剧行业内的竞争,让大公司更难保持技术优势。

受到这个思路的启发,我觉得在音乐生成领域可能有用武之地。如果把音乐的每一帧看作一个独立的音符,然后用向量化的时间步来控制每个音符的音高、时长和音色,是不是就能生成更丰富、更个性化的音乐了?

向量化时间步的核心思想是为序列中的每个元素赋予独立的演化路径,我认为这在自然语言处理领域也有应用潜力。例如,在机器翻译中,可以为源语言句子的每个词赋予独立的时间变量,模型可以根据这些变量更好地理解词语之间的依赖关系和上下文信息,从而提高翻译质量。

抖个机灵:以后是不是可以人手一个AI导演了?想看啥剧情,输入几个关键词,AI就给你生成一段,成本还极低!不过这样会不会导致劣质内容泛滥啊?感觉以后分辨真假视频的难度更大了。