抖音开源ContentV:256块NPU训成8B视频模型,效果超越Sora等

抖音开源ContentV,使用256块NPU训练的8B视频模型,在VBench上超越Sora等闭源模型,探索了有限算力下训练视频生成模型的可行路径。

原文标题:256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV

原文作者:机器之心

冷月清谈:

抖音内容技术团队开源了ContentV,这是一种高效的视频生成训练方案。ContentV使用256块NPU,仅用约4周时间便完成了8B参数模型的训练,并且在多个评估维度上取得了与现有主流方案相近的效果。ContentV方案基于极简设计,验证了视频生成的关键在于高效利用有限数据资源和有效对齐人类偏好,而非架构上的特殊设计。该方案采用多阶段渐进训练策略,从低清短片到高清长片,逐步引导模型学习时间维度和空间维度上的动态表征。此外,ContentV还提出了一种轻量级的RLHF训练方案,旨在不依赖人工标注的前提下,低成本提升视频质量。在VBench评测基准上,ContentV (8B) 的综合得分优于Sora、Kling 1.6和Gen-3等商业闭源模型,且在人类偏好评估中也表现出一定优势。

怜星夜思:

1、ContentV在有限算力下超越Sora等模型,你觉得它最大的优势是什么?除了文中的技术点,还有哪些因素可能促成了它的成功?
2、ContentV采用轻量级RLHF方案,仅使用图像奖励模型和视频前1秒进行监督。这种方式在多大程度上能够代表整个视频的质量?是否存在局限性?
3、ContentV的开源,对于视频生成领域意味着什么?你认为它会带来哪些影响?

原文内容

近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。


该工作探索了在有限算力条件下训练视频生成模型的可行路径。目前,推理代码与模型权重已对外开放。


  • 论文标题:ContentV: Efficient Training of Video Generation Models with Limited Compute

  • 技术报告:https://arxiv.org/abs/2506.05343

  • 代码仓库:https://github.com/bytedance/ContentV

  • 模型权重:https://huggingface.co/ByteDance/ContentV-8B

  • 项目主页:https://contentv.github.io


我们先来看一些效果展示视频:


✨ 核心亮点


🔧 极简设计


CogVideoX、HunyuanVideo 和 Wan2.1 等一系列优秀的开源工作表明,视频生成的关键并不在于架构上的特殊设计,而在于如何高效利用有限的数据资源,并有效对齐人类偏好。


为验证 ContentV 方案的通用性,本次开源的版本在扩散模型部分采用了经典的文生图模型 Stable Diffusion 3.5 Large。为了适配视频模态,模型在结构上仅做了以下两项必要调整:


  • 将原始图像 VAE 替换为 Wan2.1 中使用的 3D-VAE;

  • 将 2D 位置编码升级为 3D 版本。在具体编码方式上,团队对比了传统的绝对位置编码与主流的旋转位置编码。评估结果显示,两者在客观指标和主观感受上差异较小,因此保留了计算更高效的绝对位置编码方案。


ContentV模型结构

🧠 多阶段渐进训练策略


上述的最小化结构改动,在解锁了视频生成能力的同时,也最大限度地保留了原模型的图像生成能力。实验证明,在新的 VAE 和位置编码的适配阶段,沿用 Flow Matching 的训练方式,仅需 1000 步左右的微调,就能基本还原模型的图片生成能力,大幅节省图片预训练阶段的训练成本。


在视频生成的预训练阶段,为加速收敛实现高效训练,研究团队设计了一套从「低清短片」到「高清长片」的多阶段渐进式训练流程,逐步引导模型学习时间维度与空间维度上的动态表征,从而提升视频的连续性、动态表现力和画面细节。


此外,实验证明,在推理阶段引入非线性采样步长机制(Flow Shift)能够显著提升视频的整体生成质量。通过多组对比实验,团队最终确定了最优的采样策略,进一步优化了生成效果。


VAE适配过程

⚡ 轻量级 RLHF 强化训练


RLHF显著提升画面质感

在后训练阶段,除了使用高质量数据集进行微调外,通过 RLHF 或 DPO 等对齐人类偏好的监督训练,也能显著提升视频生成质量。然而,这类方法通常依赖大量人工标注,用于训练奖励模型或直接监督扩散模型。同时,相较于图像,视频的序列长度显著增加了 RLHF 和 DPO 的训练资源需求。


为此,ContentV 研究团队提出了一种轻量级的 RLHF 训练方案,旨在不依赖人工标注的前提下,低成本提升视频质量:


  • 利用开源的图像奖励模型对生成视频的单帧进行监督。相较于视频场景,目前图像奖励模型的训练数据更易获取,且在实际效果中表现更佳。实验证明,由于 MM DiT 采用全局注意力机制,仅优化单帧即可带动整体视频质量的提升;

  • 将监督范围限制在生成视频的前 1 秒,相较于对完整视频进行监督,可大幅减少训练资源的消耗,同时获得相近的质量提升效果。


采用上述策略后,在无需人工标注的情况下,仅使用少量训练资源,便可显著提升画面质量。RLHF 微调后,模型在视觉质量(VQ)指标上的表现大幅提升,评估胜率高达 89.38%。


🏆 效果对比


VBench 这一主流视频生成评测基准上,ContentV(8B)取得了 85.14 的综合得分,表现优于多个现有的商业闭源模型,包括 Sora、Kling 1.6 和 Gen-3 等。


VBench 榜单 (按照 Overall 分数降序排列)

为更贴近真实用户偏好,研究团队围绕感知质量、指令跟随、物理一致性和视觉效果四个维度开展了人类偏好评估。结果显示,ContentV 在整体表现上与 CogVideoX-5B、HunyuanVideo-13B 和 Wan2.1-14B 等主流开源模型相比具有一定优势。


人类偏好评估指标

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这种轻量级的RLHF方案是一种trade-off,它在资源有限的情况下,尽可能地提升视频质量。使用图像奖励模型和视频前1秒进行监督,能够抓住视频的一些关键特征,比如画面质感和初始动态。但局限性也很明显,它忽略了视频的长期一致性和叙事逻辑。如果视频前1秒很好,但后面内容崩坏了,这种方案就无法有效评估。因此,这种方案更适合对画面质感要求较高的短视频,对于需要完整故事的视频可能不太适用。

我认为这种方法的核心在于“注意力机制”。MM DiT采用全局注意力机制,意味着视频的每一帧都与其他帧相关联。因此,优化视频前1秒,就可以在一定程度上影响整个视频的质量。但是,这种影响是有限的。如果视频内容变化剧烈,或者存在明显的逻辑断裂,仅优化前1秒是远远不够的。此外,图像奖励模型本身也存在局限性,它可能无法完全捕捉视频的复杂性。例如,它可能无法判断视频是否符合物理规律,或者是否存在视觉上的不协调。

我比较关注ContentV的开源对行业生态的影响。一方面,它可能会加速视频生成技术的商业化,让更多的企业能够利用AI生成视频内容,降低生产成本。另一方面,它也可能会加剧版权问题和虚假信息的传播。所以,我们需要在技术发展的同时,加强监管和伦理规范,确保AI技术能够被合理利用。

我觉得ContentV最大的优势在于它选择了“效率”这条路。与其像Sora那样堆算力、拼架构,不如在数据利用和训练策略上下功夫。除了文中所说的极简设计、渐进训练和轻量级RLHF之外,我认为ByteDance在视频理解和生成方面的长期积累,以及对用户偏好的精准把握,也是它成功的关键因素。毕竟,知道用户喜欢什么,才能生成更受欢迎的视频。