快手发布可灵2.0:号称全球领先的视频生成模型,技术细节大公开

快手发布可灵2.0视频生成模型,号称全球领先,在语义响应、画面质量等方面大幅提升,并推出多模态编辑功能。

原文标题:可灵2.0成“最强视觉生成模型”?自称遥遥领先OpenAI、谷歌,技术创新细节大揭秘!

原文作者:AI前线

冷月清谈:

快手正式发布可灵2.0视频生成模型及可图2.0图像生成模型,并声称其为“世界上最强大的视觉生成模型”。通过对比测试,可灵2.0在文生视频和图生视频方面均优于Veo2、Sora等竞品。此次升级在语义响应、画面质量、动态质量、真实度和美感上均有提升,尤其是在动作、运镜和时序响应方面。技术创新包括全新设计的DiT架构、VAE以及视频生成DIT架构的Scaling Law特性研究。此外,可灵AI上线了多模态编辑功能,支持视频和图像内容的增、删、改元素,并提出了Multi-modal Visual Language(MVL)交互理念。可图2.0在指令遵循、电影质感及艺术风格表现等方面也有显著提升,支持60多种风格化效果转绘。可灵AI全球用户规模已突破2200万,月活用户量增长迅速。

怜星夜思:

1、可灵2.0号称在多项指标上超越了Sora、Veo等模型,你觉得这些数据对比是否具有说服力?在实际使用中,你更看重哪些方面的体验?
2、文章提到可灵AI提出了Multi-modal Visual Language(MVL)交互理念,你认为这种多模态交互方式会给AI视频创作带来哪些变革?对于创作者来说,这种交互方式会更高效吗?
3、可灵AI目前用户规模已突破2200万,你认为AI视频生成技术未来的发展方向是什么?它会对影视、广告等行业产生哪些影响?

原文内容

可灵 AI 创作者作品


整理 | 褚杏娟、华卫

刚刚,可灵 AI 面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。即日起,可灵 2.0 和可图 2.0 在全球范围上线。

“这是你能用到的,世界上最强大的视觉生成模型。”快手高级副总裁、社区科学线负责人盖坤说道。

根据对比测试,可灵 2.0 文生视频大模型与 Veo2 的胜负比为 205%,与 Sora 的胜负比为 367%(如果两模型胜负比为 100%,说明两者水平相当)。可灵 2.0 图生视频大模型与 Veo2 的胜负比为 182%,与 Gen-4 的胜负比为 178%。

另外,可图 2.0 文生图大模型,与 Midjourney v7 的胜负比为 301%,与 Reve 的胜负比为 193%,与 Flux 1.1 Pro 版本的胜负比为 152%。

可灵 2.0 生成效果如何?

快手副总裁、可灵 AI 负责人张迪介绍,现在的视频 AI 生成技术还远远不够,目前创作者们会遇到两类问题:一类是语义遵循能力在部分情况下能力不够,妨碍了创作者们用文字精准表达、控制生成结果;二是动态质量问题,包括大家所常说的运动崩坏或者不符合物理规律。

为此,可灵 2.0 视频生成模型在语义响应、画面质量、动态质量、真实度和美感上都有大幅提升。

语义响应

“一个视频生成模型的语义响应,已经不能用简单的文本响应来看了,我们希望它有更强的动作响应能力,有更强的运镜响应能力,有更强的时序响应能力。”张迪说道。

可灵 2.0 完善了 1.6 版本中的表情的动作描述和肢体的动作描述的细节错误: 

时序响应指的是在同一个 prompt 里面,按照时间顺序进行分段描述,模型需要按照严格的时间顺序进行展示。可灵 2.0 在背景延时摄影的完成度都很高:

除了基础运镜,可灵 2.0 可以直接用提示词激活环绕运镜、跟随运镜、镜头组合运镜等方式:

动态质量

可灵 2.0 重点优化了历史版本中可能出现慢动作的问题,对于运动速度的把握更加精准:

更合理的运动幅度使得整个画面的表现张力更好、更有冲击力:

美学优化

在美学优化方面,可灵 2.0 可以生成更具电影大片质感的镜头,同时让每一个镜头的细节表达更加丰富:

可灵 2.0 在一些细节上的优化:

对于可灵 2.0 的生成效果,网友们也给出了很高评价。

”AI 视频的质量一夜之间提升了 10 倍,我已经无话可说了。Kling 2.0 刚刚发布,我已经花掉了 1250 美元的额度来测试它的极限。我从没见过这么流畅的动态效果,也从没见过对提示词的理解这么准确的模型。”PJ Ace 说道。

“相信我,这次模型升级绝对惊艳!现在你可以生成的动态动作数量达到了新的高度。如果您想让动作更快速,新模型在这方面完全胜任,动作看起来非常自然流畅。”网友 Travis Davids 说道。

一系列技术创新细节披露

“所有的这些能力提升,都离不开整个团队背后的大量的技术创新。”张迪介绍,可灵 2.0 在基础模型架构和训练和推理策略上进行了全新的升级,这些工作使其打开了建模和仿真的能力空间。

可灵整体框架采用了类 Sora 的 DiT 结构,用 Transformer 代替了传统扩散模型中基于卷积网络的 U-Net。具体来说,可灵 2.0 在基础模型上的架构升级包括:

  • 全新设计的 DiT 架构,提升视觉 / 文本模态信息融合能力。
  • 全新设计的 VAE,使复杂动态场景下过渡更顺畅、质感更自然。
  • 首次系统性研究了视频生成 DIT 架构的 Scaling Law 特性。

为解锁更强的指令响应和运动表现,可灵 2.0 采用了以下训练和推理策略:

  • 强化对于复杂运动、主体交互的生成能力提升视频表现张力。
  • 强化对运镜语言、构图术语等专业表达的理解和响应能力。
  • 人类偏好对齐技术,让模型更懂”常识”和“审美”。

据张迪透露,在可灵 AI 平台上,85% 的视频创作是通过图生视频完成的,这一方面说明了图生视频可以更好地表达用户的创作意图,另一方面也彰显了图片赋予整个视觉创作流的重要性。

此次升级的可图 2.0 模型,在指令遵循、电影质感及艺术风格表现等方面作了显著提升。 在风格化响应上,可图 2.0 支持 60 多种风格化的效果转绘,包括受大家喜爱的 GPT 风格、二次元风格、插画风格、数字世界、3D 等,模型出图创意和想象力实现因此大幅跃升。

而在可图 2.0 背后,同样暗含许多技术创新。张迪介绍称,快手团队在预训练阶段,通过精准建模预训练文本到视觉表征的映射,使得文本和图像的对齐做得更好;在后训练阶段,该模型更多地使用了强化学习技术来提升美感、对齐人类审美,并大量探索了后训练阶段的 Scaling Law;在推理阶段,大量使用了全新的提示词工程和推理策略,提升了出图的稳定性和创造性。

视频和图像都能放进 prompt 了

“文字作为人去描述自己想象中的世界的媒介是不完备的,需要定义一个人和 AI 交互的新的语言,让人的想象能够被 AI 完全感知到。”盖坤说道。

在一些场景里,文字很难准确描述出视频内容,比如复杂的武打画面,即使用很大篇幅的文字也难以准确描述。

为此,快手还在可灵 2.0 大师版上线了全新的多模态编辑功能,能灵活理解用户意图,支持对视频和图像内容实现增、删、改元素。

具体可以看到,多模态编辑器中,可以将多模态的表达放进提示词中,以实现更准备的修改。

此外,图像多模态编辑具有风格重绘的能力,能够对图片可进行不同风格的重绘,且保持原图片的语义。

在本次 2.0 模型迭代中,可灵 AI 正式提出了 AI 视频生成的全新交互理念 Multi-modal Visual Language(MVL),即将语义骨架(TXT)和多模态描述子(MMW)结合,让用户能够结合图像参考、视频片段等多模态信息,将脑海中的多维度复杂创意,直接高效地传达给 AI。此次发布的多模态视频编辑功能,正是基于 MVL 的思想所研发。

张迪介绍称,多模态编辑功能背后是一整套多模态控制技术,快手目前在这方面迎来了很大的突破,包括以下三个方面:

  • 把文本模态、图像模态和视觉模态进行了统一表征,并使用超长的上下文进行训练;
  • 通过高效的 Token 压缩与缓存算法,可以支持长序列的训练和推理;
  • 在推理环节,使用了带有 CoT 的多模态推理能力技术来理解用户输入的多模态信息。
结   语

截至目前,可灵 AI 全球用户规模突破 2200 万,过去的 10 个月里,其月活用户量增长 25 倍,累计生成超过 1.68 亿个视频及 3.44 亿张图片。

张迪表示,在发布之初,快手便深知视频生成技术赛道是一个长跑,为此可灵 AI 自发布后就进入了夺命狂奔模式,过去 10 个月时间里已经历了 20 多次的产品迭代,发布了 9 个有里程碑意义的产品。可灵 1.0 于去年 6 月发布,是全球首个用户真实可用的 DIT 架构的视频政策大模型。

对于这一次的更新,可灵 AI 团队给出了这样的评价:“我们可以当之无愧的说,可灵 2.0 文生视频模型是一个全球大幅领先的视频模型。”

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文

图片
你也「在看」吗?👇

MVL如果真的能实现,那绝对是AI视频创作的一大步。以前我们只能用文字描述,很多细节很难表达清楚。有了图像、视频等多种输入方式,AI就能更准确地理解我们的创作意图,就像和一个经验丰富的伙伴一起创作一样。

我觉得AI视频生成技术会朝着更加智能化、个性化的方向发展。未来,AI不仅能生成视频,还能根据用户的喜好自动推荐内容、优化剪辑。对于影视、广告等行业来说,AI可以大大降低制作成本,提高生产效率,但也可能会取代一部分基础岗位。

遥遥领先!必须支持国产!数据什么的都是浮云,重要的是要有自己的东西。而且我感觉可灵2.0生成的视频更有生活气息,不像某些国外模型,看起来总是有点失真。

我个人觉得,跑分数据只能作为参考,具体还是要看实际使用体验。这些数据可能是针对特定场景或数据集进行的测试,并不能完全代表所有情况。我更看重生成视频的流畅度、对prompt的理解程度,以及是否能方便地进行二次编辑。

多模态交互确实能提高效率,但关键在于AI对多模态信息的理解能力。如果AI不能很好地解析这些信息,反而会增加沟通成本。另外,对于一些习惯了文字创作的人来说,可能还需要一个适应过程。

数据当然重要,但也要看测试方法是否科学严谨。如果快手能公开更详细的测试过程和数据集,会更有说服力。对我来说,除了效果,成本也很重要,如果生成一个高质量视频的成本太高,那实用性也会大打折扣。

高效肯定是高效的!想想以后直接上传一段参考视频,然后告诉AI“我要一个类似的,但是XXX”,这简直不要太方便!不过,这样会不会也让创作变得更同质化了?毕竟大家都参考同一个素材库,想想有点可怕。

我认为AI视频生成会越来越普及,成为一种人人可用的创作工具。它会降低视频创作的门槛,让更多人参与到内容生产中来。当然,这也对内容审核提出了更高的要求,毕竟AI生成的内容可能会存在版权、伦理等方面的问题。

AI视频生成,以后人人都是导演!以后刷短视频,可能99%都是AI生成的了,想想就刺激。不过,这也意味着我们需要学会甄别信息,提高自身的媒介素养,不然很容易被AI制造的假象所迷惑。