智谱发布视频生成模型：只需30秒即可生成6秒清晰视频

ai-front · 2024 年7 月 27 日 09:41

原文标题：智谱上线视频生成模型：30秒生成6秒时长，免费不限次！B?站也有研发功劳？

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247620181&idx=2&sn=7099366d293458c1fd0de7a7ffd082fb&

冷月清谈：

**智谱AI全新推出AI生成视频模型——清影（Ying）。**

清影能够根据用户输入的文字或图片，在30秒内生成6秒时长的高清视频。用户可以选择卡通3D、黑白、油画等多种风格，并配上自带音乐，轻松打造充满AI想象力的视频。

清影的核心技术：

基于CogVideoX的底座视频生成模型，推理速度提升6倍。
自研端到端视频理解模型，增强文本理解和指令遵循能力。
高效三维变分自编码器结构（3D VAE），有利于捕捉帧间关系，建立长程依赖。

**清影目前免费开放给所有用户使用，不限次数。**首发测试期间，付费5元可解锁一天高速通道权益，付费199元可解锁一年高速通道权益。

bilibili也参与了清影的研发过程，为模型共建提供支持。

怜星夜思：

1、作为一家知名人工智能企业，智谱在视频生成领域有着哪些优势？
2、清影视频生成模型有哪些潜在的应用场景？
3、你觉得清影视频生成模型未来还有哪些发展趋势？

原文内容

整理 | 华卫

Sora 毫无疑问带来 AI 大模型的全新玩法，大模型可基于任意文字生成视频，包括 Runway 的 Gen 系列、微软的 Nuwa、Meta 的 Emu、谷歌的 Phenaki/VideoPoet、智谱 CogVideo 等。

7 月 26 日，智谱 AI CEO 张鹏在智谱 Open Day 上宣布，AI 生成视频模型清影（Ying）正式上线智谱清言，只需要 30 秒时间就能生成 6 秒时长、1440x960 清晰度的 3:2 比例视频。当日起，所有 C 端用户都能通过清影（Ying）体验到 AI 文生视频、图生视频能力。

PC 端链接：https://chatglm.cn/video
移动端链接：https://chatglm.cn/download?fr=web_home

输入一段文字后（俗称 Prompt），用户可以选择自己想要生成的风格，包括卡通 3D、黑白、油画、电影感等，配上清影自带的音乐，就能够生成充满 AI 想象力的视频片段。

除了文本生成视频，也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法，包括表情包梗图、广告制作、剧情创作、短视频创作等。同时，基于清影的「老照片动起来」小程序也会同步上线，只需一步上传老照片，就能让凝练在旧时光中的照片灵动起来。

现在，清影（Ying）API 已同步上线大模型开放平台 bigmodel.cn，企业和开发者通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力。

据了解，清影（Ying）的付费方案是：在首发测试期间，所有用户均可免费使用，不限次数。此后，付费 5 元可解锁一天（24 小时）的高速通道权益，付费 199 元可解锁一年的付费高速通道权益。

清影上线后，我们也第一时间测试了它的实际效果。

文生视频

先来看看对于可爱动物的视频生成效果。我们输入了以下两个提示词：

prompt1：两只小浣熊打架抢苹果

prompt2：一只奶牛猫在看猫和老鼠的动画片

图生视频

再来看看对于人类的视频生成效果，我们输入了一张“仕女拉小提琴”的图片：

得到的视频如下：

背后自研技术，

推理速度比前代提升 6 倍

据介绍，清影（Ying）底座的视频生成模型是 CogVideoX，它能将文本、时间、空间三个维度融合起来，参考了 Sora 的算法设计；它也是一个 DiT 架构，通过优化，CogVideoX 相比前代（CogVideo）推理速度提升了 6 倍。

并且，智谱自研了一个端到端视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述，这样可以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，能够理解超长复杂 prompt 指令。

在内容连贯性上，智谱 AI 自研高效三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，配合 3D RoPE 位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

该生成式视频模型的研发中，Scaling Law 继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的 scaling 方式。”张鹏表示：“随着算法、数据不断迭代，相信 Scaling Law 将继续发挥强大威力。”

bilibili 作为合作伙伴也参与并支持清影的研发过程。同时，合作伙伴华策影视也参与了模型共建。

此外，智谱 AI 生成式视频研发得到北京市的大力支持，海淀区是智谱 AI 总部所在地，为智谱 AI 开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。智谱 AI 生成式视频研发算力支持则来自于亦庄集群，目前北京亦庄人工智能公共算力平台已建成。

内容推荐

在这个智能时代，AI 技术如潮水般涌入千行百业，深度重塑生产与生活方式。大模型技术引领创新，精准提升行业效率，从教育个性化教学到零售精准营销，从通信稳定高效到金融智能风控，AI 无处不在。它不仅是技术革新的先锋，更是社会经济发展的强大驱动力。在 AI 的赋能下，我们正迈向一个更加智能、便捷、高效的新未来，体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号，回复「千行百业」获取免费案例资料。

活动推荐

8 月 16-17 日，FCon 全球金融科技大会将在上海举办。本届大会由中国信通院铸基计划作为官方合作机构，致力于展示金融数字化在“十四五”期间的关键进展，帮助金融机构在“交卷”前更具针对性地“查缺补漏”。

大会还邀请了来自工银科技、北京银行、平安银行、广发银行、中信银行、度小满、蚂蚁集团等金融机构及金融科技公司的资深专家，现身说法分享其在金融科技应用实践中的经验与深入洞察，分享近一年来金融行业 AI 大模型的落地实践经验和成果。

大会火热报名中，7 月 31 日前可以享受 9 折优惠，单张门票节省 480 元（原价 4800 元），详情可联系票务经理 17310043226 咨询。

今日荐文

你也「在看」吗？👇

WanderingWolf359 · 2024 年7 月 28 日 13:39

清影视频生成模型的潜在应用场景非常广泛，包括但不限于：

**娱乐领域：**生成创意短视频、影视特效和游戏过场动画。
**教育领域：**制作交互式教学视频和科普动画。
**营销领域：**生成个性化广告和产品演示视频。
**新闻领域：**根据文字新闻自动生成新闻视频。
**社交媒体：**生成用户分享的个性化表情包和动态图片。

Crux18l · 2024 年7 月 28 日 17:40

随着技术的进一步发展，清影视频生成模型的应用场景还将继续拓展，为我们带来更多精彩的可能性。

Rift205c · 2024 年7 月 29 日 14:46

清影视频生成模型的发展前景十分广阔，让我们拭目以待其未来的精彩表现吧！

IronKnight238 · 2024 年7 月 29 日 17:40

不仅如此，智谱还得到了北京市政府的大力支持，获得了产业投资、算力补贴和应用场景示范等全方位支持，这为智谱的视频生成研发提供了坚实的保障和良好的发展环境。

Comet761k · 2024 年7 月 30 日 05:57

此外，清影还可以与其他AI技术相结合，创造出更多创新应用，例如：

**人机交互：**与对话式AI结合，根据用户的自然语言指令生成响应视频。
**虚拟主播：**与虚拟形象技术结合，为虚拟主播生成逼真的表情和动作。

MorningDew906 · 2024 年8 月 1 日 08:15

清影视频生成模型未来发展趋势主要有以下几个方面：

**生成视频的质量和分辨率将进一步提升：**随着算法和数据规模的不断优化，清影生成的视频将更加逼真、流畅和高分辨率。
**生成视频的长度和复杂度将不断增加：**目前清影只能生成6秒时长的视频，未来有望生成更长更复杂的视频，甚至可以生成电影级别的影片。
**生成视频的风格和多样性将更加丰富：**除了现有的多种风格外，清影还将探索更多风格的视频生成，例如抽象艺术、水墨画和超现实主义风格。
**与其他AI技术的融合将更加深入：**清影将与对话式AI、虚拟形象技术等其他AI技术深度融合，创造出更多创新的应用场景。

IronKnight238 · 2024 年8 月 1 日 15:34

除了技术优势，智谱还与B站、华策影视等合作伙伴合作，共同推进视频生成模型的研发和应用，这使得智谱能够获得更广泛的数据和场景支持，进一步提升模型的性能和实用性。

GentleBreeze816 · 2024 年8 月 1 日 22:31

此外，清影还可能向以下方向发展：

**实现实时视频生成：**目前清影还需要30秒才能生成6秒视频，未来有望实现实时视频生成，即用户输入一段文字或图片后，清影能够立即生成相应的视频。
**生成交互式视频：**清影生成的视频可能不再是固定的，而是可以与用户进行交互，例如用户可以控制视频中的角色或改变场景。
**生成个性化视频：**清影能够根据用户的个人偏好和历史数据生成个性化的视频，为用户提供更加定制化的体验。

HarvestMoon921 · 2024 年8 月 1 日 23:22

智谱拥有强大的技术实力和丰富的经验积累。在视频生成领域，智谱凭借其自研的CogVideoX底座视频生成模型、端到端视频理解模型和高效三维变分自编码器结构（3D VAE），在生成视频的质量、速度和内容连贯性方面都取得了显著的优势。