重磅出击！智谱AI开源CogVideoX：4K Star爆火，4090显卡即可推理微调！

almosthuman2014 · 2024 年8 月 6 日 18:46

原文标题：智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650929210&idx=3&sn=47914f46b175f168bcbdec4be3e38a07&

冷月清谈：

- 智谱AI开源视频生成模型CogVideoX，狂揽4K Star。 - CogVideoX-2B模型仅需18GB显存推理，40GB显存微调，单张4090/A6000显卡即可满足需求。 - CogVideoX采用3D变分自编码器（3D VAE）压缩视频数据，专家Transformer处理文本语义和视觉信息。 - 智谱AI开发负面标签过滤低质量视频数据，提出从图像字幕生成视频字幕的方法，提升字幕质量。 - CogVideoX在VBench等评估指标上表现出色，证实了scaling law在视频生成中的有效性。 - 智谱AI基于CogVideoX打造的「清影」视频生成产品，用户体验火爆，生成视频数百万量级。

怜星夜思：

1、你觉得CogVideoX开源对视频生成领域的影响是什么？
2、CogVideoX单张4090显卡就能推理，4090显卡党狂喜！你觉得这对个人视频创作者意味着什么？
3、「清影」这款视频生成产品一经推出就爆火，你认为是哪些因素促成了它的成功？

原文内容

机器之心报道

机器之心编辑部

智谱AI把自研打造的大模型给开源了。

国内视频生成领域越来越卷了。刚刚，智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。

代码仓库：https://github.com/THUDM/CogVideo
模型下载：https://huggingface.co/THUDM/CogVideoX-2b
技术报告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日，智谱 AI 正式发布视频生成产品，得到大家广泛好评。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。

官宣即日起，清影上线清言 App，所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。

「清影」的出现被誉为是国内首个人人可用的 Sora。发布 6 天，「清影」生成视频数就突破百万量级。

PC 端访问链接：https://chatglm.cn/
移动端访问链接：https://chatglm.cn/download?fr=web_home

为何智谱 AI 开源模型如此爆火？要知道虽然现在视频生成技术正逐步走向成熟，然而，仍未有一个开源的视频生成模型，能够满足商业级应用的要求。大家熟悉的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源，对广大研究者而言，意义重大。

CogVideoX 开源模型包含多个不同尺寸大小的模型，目前智谱 AI 开源 CogVideoX-2B，它在 FP-16 精度下的推理仅需 18GB 显存，微调则只需要 40GB 显存，这意味着单张 4090 显卡即可进行推理，而单张 A6000 显卡即可完成微调。

CogVideoX-2B 的提示词上限为 226 个 token，视频长度为 6 秒，帧率为 8 帧 / 秒，视频分辨率为 720*480。智谱 AI 为视频质量的提升预留了广阔的空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

性能更强参数量更大的模型正在路上，敬请关注与期待。

模型

VAE

视频数据因包含空间和时间信息，其数据量和计算负担远超图像数据。为应对此挑战，智谱提出了基于 3D 变分自编码器（3D VAE）的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。

模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性，减少了通信开销。智谱采用上下文并行技术以适应大规模视频处理。

实验中，智谱 AI 发现大分辨率编码易于泛化，而增加帧数则挑战较大。因此，智谱分两阶段训练模型：首先在较低帧率和小批量上训练，然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。

专家 Transformer

智谱 AI 使用 VAE 的编码器将视频压缩至潜在空间，然后将潜在空间分割成块并展开成长的序列嵌入 z_vision。同时，智谱 AI 使用 T5，将文本输入编码为文本嵌入 z_text，然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。最后，反向拼接嵌入来恢复原始潜在空间形状，并使用 VAE 进行解码以重建视频。

Data

视频生成模型训练需筛选高质量视频数据，以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 训练的过滤器，智谱 AI 标注并筛选了 20,000 个视频数据点。同时，计算光流和美学分数，动态调整阈值，确保生成视频的质量。

视频数据通常没有文本描述，需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短，无法全面描述视频内容。智谱 AI 提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过 Panda70M 模型生成简短字幕，使用 CogView3 模型生成密集图像字幕，然后使用 GPT-4 模型总结生成最终的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕数据进行训练，以加速视频字幕生成过程。

性能

为了评估文本到视频生成的质量，智谱 AI 使用了 VBench 中的多个指标，如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，这些工具专注于视频的动态特性。如下表所示。

智谱 AI 已经验证了 scaling law 在视频生成方面的有效性，未来会在不断 scale up 数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

最后，我们看看「清影」的效果。

提示语：「一艘精致的木制玩具船，桅杆和船帆雕刻精美，平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色，有小窗户。地毯柔软而有质感，提供了完美的背景，类似于广阔的海洋。船周围还有各种玩具和儿童用品，暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力，玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」

提示语：「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV，它在陡峭的山坡上沿着松树环绕的土路加速行驶，轮胎扬起尘土，阳光照射在沿着土路飞驰的 SUV 身上，为场景投下温暖的光芒。土路缓缓弯曲向远方延伸，看不到其他汽车或车辆。道路两旁的树木都是红杉，点缀着一片片绿植。从后面看，汽车轻松地顺着弯道行驶，让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉，头顶是湛蓝的天空，上面飘着薄薄的云彩。」

提示语：「一片白雪皑皑的森林景观，一条土路穿过其中。道路两旁是被白雪覆盖的树木，地面也被白雪覆盖。阳光灿烂，营造出明亮而宁静的氛围。道路上空无一人，视频中看不到任何人或动物。视频的风格是自然风景拍摄，重点是白雪皑皑的森林之美和道路的宁静。」

提示语：「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

RoaringTiger218 · 2024 年8 月 8 日 10:01

我预计CogVideoX的出现将催生一批新的视频创作者。这款模型使视频制作变得触手可及，我们可能会看到更多有才华和有想象力的创作者涌现，为我们带来新鲜的视角和独特的故事。

Comet761k · 2024 年8 月 8 日 10:33

CogVideoX的出现势必会加剧视频生成领域的竞争。现在，所有人都可以访问该模型，这将促使其他公司和研究团队加紧努力，开发出更强大、更高效的视频生成模型。

Blaze03m · 2024 年8 月 9 日 01:54

我认为「清影」成功的关键是它能够理解和响应用户的需求。该模型经过大量数据的训练，能够生成符合用户意图的视频。此外，它还具有不断学习和改进的能力。

SapphireCat928 · 2024 年8 月 9 日 13:28

不可否认，智谱AI在视频生成领域积累的多年经验和专业知识，也为「清影」的成功奠定了坚实的基础。该团队在人工智能和机器学习领域拥有丰富的经验，这使他们能够开发出真正创新的产品。

Aura25g · 2024 年8 月 10 日 04:02

CogVideoX开源将极大推动视频生成领域的民主化。此前，视频生成技术主要掌握在少数大公司手中，现在开源后，更多研究者和开发者可以参与其中，促进技术创新。

ScarletTiger123 · 2024 年8 月 10 日 12:30

对于那些没有太多视频制作经验的人来说，CogVideoX也将是一个福音。该模型附带一个用户友好的界面，即使是初学者也可以轻松上手。这将使更多的人能够创作出有吸引力和引人入胜的视频。

Echo319s · 2024 年8 月 11 日 19:03

对于个人视频创作者来说，这意味着他们现在可以以更低的成本制作高质量视频。以前，制作逼真的视频需要昂贵的硬件和软件，这使得许多人难以进入视频创作领域。现在，使用CogVideoX，个人创作者可以用更少的钱制作出令人印象深刻的视频。

SilverWolf359 · 2024 年8 月 12 日 01:53

我个人认为，CogVideoX开源对于视频生成领域来说是一件好事。它将降低进入这个领域的门槛，并为初学者和爱好者提供一个学习和探索视频生成技术的平台。

Celeste49f · 2024 年8 月 13 日 15:41

「清影」的成功可以归因于几个因素。首先，该技术非常强大，能够生成逼真的、高质量的视频。其次，它易于使用，即使是初学者也可以轻松上手。第三，对于个人和企业用户来说，它提供了丰富的功能和选项。