智谱发布视频生成模型:只需30秒即可生成6秒清晰视频

原文标题:智谱上线视频生成模型:30秒生成6秒时长,免费不限次!B?站也有研发功劳?

原文作者:AI前线

冷月清谈:

**智谱AI全新推出AI生成视频模型——清影(Ying)。**

清影能够根据用户输入的文字或图片,在30秒内生成6秒时长的高清视频。用户可以选择卡通3D、黑白、油画等多种风格,并配上自带音乐,轻松打造充满AI想象力的视频。

清影的核心技术:

  • 基于CogVideoX的底座视频生成模型,推理速度提升6倍。
  • 自研端到端视频理解模型,增强文本理解和指令遵循能力。
  • 高效三维变分自编码器结构(3D VAE),有利于捕捉帧间关系,建立长程依赖。

**清影目前免费开放给所有用户使用,不限次数。**首发测试期间,付费5元可解锁一天高速通道权益,付费199元可解锁一年高速通道权益。

bilibili也参与了清影的研发过程,为模型共建提供支持。




怜星夜思:


1、作为一家知名人工智能企业,智谱在视频生成领域有着哪些优势?
2、清影视频生成模型有哪些潜在的应用场景?
3、你觉得清影视频生成模型未来还有哪些发展趋势?




原文内容



整理 | 华卫  

Sora 毫无疑问带来 AI 大模型的全新玩法,大模型可基于任意文字生成视频,包括 Runway 的 Gen 系列、微软的 Nuwa、Meta 的 Emu、谷歌的 Phenaki/VideoPoet、智谱 CogVideo 等。

7 月 26 日,智谱 AI CEO 张鹏在智谱 Open Day 上宣布,AI 生成视频模型清影(Ying)正式上线智谱清言,只需要 30 秒时间就能生成 6 秒时长、1440x960 清晰度的 3:2 比例视频。当日起,所有 C 端用户都能通过清影(Ying)体验到 AI 文生视频、图生视频能力。

PC 端链接:https://chatglm.cn/video
移动端链接:https://chatglm.cn/download?fr=web_home

输入一段文字后(俗称 Prompt),用户可以选择自己想要生成的风格,包括卡通 3D、黑白、油画、电影感等,配上清影自带的音乐,就能够生成充满 AI 想象力的视频片段。

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,就能让凝练在旧时光中的照片灵动起来。

现在,清影(Ying)API 已同步上线大模型开放平台 bigmodel.cn,企业和开发者通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。

据了解,清影(Ying)的付费方案是:在首发测试期间,所有用户均可免费使用,不限次数。此后,付费 5 元可解锁一天(24 小时)的高速通道权益,付费 199 元可解锁一年的付费高速通道权益。

清影上线后,我们也第一时间测试了它的实际效果。

文生视频

先来看看对于可爱动物的视频生成效果。我们输入了以下两个提示词:

prompt1:两只小浣熊打架抢苹果

prompt2:一只奶牛猫在看猫和老鼠的动画片

图生视频

再来看看对于人类的视频生成效果,我们输入了一张“仕女拉小提琴”的图片:

得到的视频如下:

背后自研技术,
推理速度比前代提升 6 倍

据介绍,清影(Ying)底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计;它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

并且,智谱自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂 prompt 指令。

在内容连贯性上,智谱 AI 自研高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

该生成式视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。“我们积极在模型层面探索更高效的 scaling 方式。”张鹏表示:“随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强大威力。”

bilibili 作为合作伙伴也参与并支持清影的研发过程。同时,合作伙伴华策影视也参与了模型共建。

此外,智谱 AI 生成式视频研发得到北京市的大力支持,海淀区是智谱 AI 总部所在地,为智谱 AI 开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持。智谱 AI 生成式视频研发算力支持则来自于亦庄集群,目前北京亦庄人工智能公共算力平台已建成。

内容推荐

在这个智能时代,AI 技术如潮水般涌入千行百业,深度重塑生产与生活方式。大模型技术引领创新,精准提升行业效率,从教育个性化教学到零售精准营销,从通信稳定高效到金融智能风控,AI 无处不在。它不仅是技术革新的先锋,更是社会经济发展的强大驱动力。在 AI 的赋能下,我们正迈向一个更加智能、便捷、高效的新未来,体验前所未有的生活变革与行业飞跃。关注「AI 前线」公众号,回复「千行百业」获取免费案例资料。

活动推荐

8 月 16-17 日,FCon 全球金融科技大会将在上海举办。本届大会由中国信通院铸基计划作为官方合作机构,致力于展示金融数字化在“十四五”期间的关键进展,帮助金融机构在“交卷”前更具针对性地“查缺补漏”。

大会还邀请了来自工银科技、北京银行、平安银行、广发银行、中信银行、度小满、蚂蚁集团等金融机构及金融科技公司的资深专家,现身说法分享其在金融科技应用实践中的经验与深入洞察,分享近一年来金融行业 AI 大模型的落地实践经验和成果。

大会火热报名中,7 月 31 日前可以享受 9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 17310043226 咨询。


今日荐文





图片

你也「在看」吗?👇

清影视频生成模型的潜在应用场景非常广泛,包括但不限于:

  • **娱乐领域:**生成创意短视频、影视特效和游戏过场动画。
  • **教育领域:**制作交互式教学视频和科普动画。
  • **营销领域:**生成个性化广告和产品演示视频。
  • **新闻领域:**根据文字新闻自动生成新闻视频。
  • **社交媒体:**生成用户分享的个性化表情包和动态图片。

随着技术的进一步发展,清影视频生成模型的应用场景还将继续拓展,为我们带来更多精彩的可能性。

清影视频生成模型的发展前景十分广阔,让我们拭目以待其未来的精彩表现吧!

不仅如此,智谱还得到了北京市政府的大力支持,获得了产业投资、算力补贴和应用场景示范等全方位支持,这为智谱的视频生成研发提供了坚实的保障和良好的发展环境。

此外,清影还可以与其他AI技术相结合,创造出更多创新应用,例如:

  • **人机交互:**与对话式AI结合,根据用户的自然语言指令生成响应视频。
  • **虚拟主播:**与虚拟形象技术结合,为虚拟主播生成逼真的表情和动作。

清影视频生成模型未来发展趋势主要有以下几个方面:

  • **生成视频的质量和分辨率将进一步提升:**随着算法和数据规模的不断优化,清影生成的视频将更加逼真、流畅和高分辨率。
  • **生成视频的长度和复杂度将不断增加:**目前清影只能生成6秒时长的视频,未来有望生成更长更复杂的视频,甚至可以生成电影级别的影片。
  • **生成视频的风格和多样性将更加丰富:**除了现有的多种风格外,清影还将探索更多风格的视频生成,例如抽象艺术、水墨画和超现实主义风格。
  • **与其他AI技术的融合将更加深入:**清影将与对话式AI、虚拟形象技术等其他AI技术深度融合,创造出更多创新的应用场景。

除了技术优势,智谱还与B站、华策影视等合作伙伴合作,共同推进视频生成模型的研发和应用,这使得智谱能够获得更广泛的数据和场景支持,进一步提升模型的性能和实用性。

此外,清影还可能向以下方向发展:

  • **实现实时视频生成:**目前清影还需要30秒才能生成6秒视频,未来有望实现实时视频生成,即用户输入一段文字或图片后,清影能够立即生成相应的视频。
  • **生成交互式视频:**清影生成的视频可能不再是固定的,而是可以与用户进行交互,例如用户可以控制视频中的角色或改变场景。
  • **生成个性化视频:**清影能够根据用户的个人偏好和历史数据生成个性化的视频,为用户提供更加定制化的体验。

智谱拥有强大的技术实力和丰富的经验积累。在视频生成领域,智谱凭借其自研的CogVideoX底座视频生成模型、端到端视频理解模型和高效三维变分自编码器结构(3D VAE),在生成视频的质量、速度和内容连贯性方面都取得了显著的优势。