快手发布可灵2.0：号称全球领先的视频生成模型，技术细节大公开

ai-front · 2025 年4 月 15 日 19:35

快手发布可灵2.0视频生成模型，号称全球领先，在语义响应、画面质量等方面大幅提升，并推出多模态编辑功能。

原文标题：可灵2.0成“最强视觉生成模型”？自称遥遥领先OpenAI、谷歌，技术创新细节大揭秘！

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247637369&idx=1&sn=3ad8b9eb94be6d1647af3d67aa4c081b&

冷月清谈：

快手正式发布可灵2.0视频生成模型及可图2.0图像生成模型，并声称其为“世界上最强大的视觉生成模型”。通过对比测试，可灵2.0在文生视频和图生视频方面均优于Veo2、Sora等竞品。此次升级在语义响应、画面质量、动态质量、真实度和美感上均有提升，尤其是在动作、运镜和时序响应方面。技术创新包括全新设计的DiT架构、VAE以及视频生成DIT架构的Scaling Law特性研究。此外，可灵AI上线了多模态编辑功能，支持视频和图像内容的增、删、改元素，并提出了Multi-modal Visual Language（MVL）交互理念。可图2.0在指令遵循、电影质感及艺术风格表现等方面也有显著提升，支持60多种风格化效果转绘。可灵AI全球用户规模已突破2200万，月活用户量增长迅速。

怜星夜思：

1、可灵2.0号称在多项指标上超越了Sora、Veo等模型，你觉得这些数据对比是否具有说服力？在实际使用中，你更看重哪些方面的体验？
2、文章提到可灵AI提出了Multi-modal Visual Language（MVL）交互理念，你认为这种多模态交互方式会给AI视频创作带来哪些变革？对于创作者来说，这种交互方式会更高效吗？
3、可灵AI目前用户规模已突破2200万，你认为AI视频生成技术未来的发展方向是什么？它会对影视、广告等行业产生哪些影响？

原文内容

可灵 AI 创作者作品

整理 | 褚杏娟、华卫

刚刚，可灵 AI 面向全球正式发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型。即日起，可灵 2.0 和可图 2.0 在全球范围上线。

“这是你能用到的，世界上最强大的视觉生成模型。”快手高级副总裁、社区科学线负责人盖坤说道。

根据对比测试，可灵 2.0 文生视频大模型与 Veo2 的胜负比为 205%，与 Sora 的胜负比为 367%（如果两模型胜负比为 100%，说明两者水平相当）。可灵 2.0 图生视频大模型与 Veo2 的胜负比为 182%，与 Gen-4 的胜负比为 178%。

另外，可图 2.0 文生图大模型，与 Midjourney v7 的胜负比为 301%，与 Reve 的胜负比为 193%，与 Flux 1.1 Pro 版本的胜负比为 152%。

可灵 2.0 生成效果如何？

快手副总裁、可灵 AI 负责人张迪介绍，现在的视频 AI 生成技术还远远不够，目前创作者们会遇到两类问题：一类是语义遵循能力在部分情况下能力不够，妨碍了创作者们用文字精准表达、控制生成结果；二是动态质量问题，包括大家所常说的运动崩坏或者不符合物理规律。

为此，可灵 2.0 视频生成模型在语义响应、画面质量、动态质量、真实度和美感上都有大幅提升。

语义响应

“一个视频生成模型的语义响应，已经不能用简单的文本响应来看了，我们希望它有更强的动作响应能力，有更强的运镜响应能力，有更强的时序响应能力。”张迪说道。

可灵 2.0 完善了 1.6 版本中的表情的动作描述和肢体的动作描述的细节错误：

时序响应指的是在同一个 prompt 里面，按照时间顺序进行分段描述，模型需要按照严格的时间顺序进行展示。可灵 2.0 在背景延时摄影的完成度都很高：

除了基础运镜，可灵 2.0 可以直接用提示词激活环绕运镜、跟随运镜、镜头组合运镜等方式：

动态质量

可灵 2.0 重点优化了历史版本中可能出现慢动作的问题，对于运动速度的把握更加精准：

更合理的运动幅度使得整个画面的表现张力更好、更有冲击力：

美学优化

在美学优化方面，可灵 2.0 可以生成更具电影大片质感的镜头，同时让每一个镜头的细节表达更加丰富：

可灵 2.0 在一些细节上的优化：

对于可灵 2.0 的生成效果，网友们也给出了很高评价。

”AI 视频的质量一夜之间提升了 10 倍，我已经无话可说了。Kling 2.0 刚刚发布，我已经花掉了 1250 美元的额度来测试它的极限。我从没见过这么流畅的动态效果，也从没见过对提示词的理解这么准确的模型。”PJ Ace 说道。

“相信我，这次模型升级绝对惊艳！现在你可以生成的动态动作数量达到了新的高度。如果您想让动作更快速，新模型在这方面完全胜任，动作看起来非常自然流畅。”网友 Travis Davids 说道。

一系列技术创新细节披露

“所有的这些能力提升，都离不开整个团队背后的大量的技术创新。”张迪介绍，可灵 2.0 在基础模型架构和训练和推理策略上进行了全新的升级，这些工作使其打开了建模和仿真的能力空间。

可灵整体框架采用了类 Sora 的 DiT 结构，用 Transformer 代替了传统扩散模型中基于卷积网络的 U-Net。具体来说，可灵 2.0 在基础模型上的架构升级包括：

全新设计的 DiT 架构，提升视觉 / 文本模态信息融合能力。
全新设计的 VAE，使复杂动态场景下过渡更顺畅、质感更自然。
首次系统性研究了视频生成 DIT 架构的 Scaling Law 特性。

为解锁更强的指令响应和运动表现，可灵 2.0 采用了以下训练和推理策略：

强化对于复杂运动、主体交互的生成能力提升视频表现张力。
强化对运镜语言、构图术语等专业表达的理解和响应能力。
人类偏好对齐技术，让模型更懂”常识”和“审美”。

据张迪透露，在可灵 AI 平台上，85% 的视频创作是通过图生视频完成的，这一方面说明了图生视频可以更好地表达用户的创作意图，另一方面也彰显了图片赋予整个视觉创作流的重要性。

此次升级的可图 2.0 模型，在指令遵循、电影质感及艺术风格表现等方面作了显著提升。在风格化响应上，可图 2.0 支持 60 多种风格化的效果转绘，包括受大家喜爱的 GPT 风格、二次元风格、插画风格、数字世界、3D 等，模型出图创意和想象力实现因此大幅跃升。

而在可图 2.0 背后，同样暗含许多技术创新。张迪介绍称，快手团队在预训练阶段，通过精准建模预训练文本到视觉表征的映射，使得文本和图像的对齐做得更好；在后训练阶段，该模型更多地使用了强化学习技术来提升美感、对齐人类审美，并大量探索了后训练阶段的 Scaling Law；在推理阶段，大量使用了全新的提示词工程和推理策略，提升了出图的稳定性和创造性。

视频和图像都能放进 prompt 了

“文字作为人去描述自己想象中的世界的媒介是不完备的，需要定义一个人和 AI 交互的新的语言，让人的想象能够被 AI 完全感知到。”盖坤说道。

在一些场景里，文字很难准确描述出视频内容，比如复杂的武打画面，即使用很大篇幅的文字也难以准确描述。

为此，快手还在可灵 2.0 大师版上线了全新的多模态编辑功能，能灵活理解用户意图，支持对视频和图像内容实现增、删、改元素。

具体可以看到，多模态编辑器中，可以将多模态的表达放进提示词中，以实现更准备的修改。

此外，图像多模态编辑具有风格重绘的能力，能够对图片可进行不同风格的重绘，且保持原图片的语义。

在本次 2.0 模型迭代中，可灵 AI 正式提出了 AI 视频生成的全新交互理念 Multi-modal Visual Language（MVL），即将语义骨架（TXT）和多模态描述子（MMW）结合，让用户能够结合图像参考、视频片段等多模态信息，将脑海中的多维度复杂创意，直接高效地传达给 AI。此次发布的多模态视频编辑功能，正是基于 MVL 的思想所研发。

张迪介绍称，多模态编辑功能背后是一整套多模态控制技术，快手目前在这方面迎来了很大的突破，包括以下三个方面：

把文本模态、图像模态和视觉模态进行了统一表征，并使用超长的上下文进行训练；
通过高效的 Token 压缩与缓存算法，可以支持长序列的训练和推理；
在推理环节，使用了带有 CoT 的多模态推理能力技术来理解用户输入的多模态信息。

结语

截至目前，可灵 AI 全球用户规模突破 2200 万，过去的 10 个月里，其月活用户量增长 25 倍，累计生成超过 1.68 亿个视频及 3.44 亿张图片。

张迪表示，在发布之初，快手便深知视频生成技术赛道是一个长跑，为此可灵 AI 自发布后就进入了夺命狂奔模式，过去 10 个月时间里已经历了 20 多次的产品迭代，发布了 9 个有里程碑意义的产品。可灵 1.0 于去年 6 月发布，是全球首个用户真实可用的 DIT 架构的视频政策大模型。

对于这一次的更新，可灵 AI 团队给出了这样的评价：“我们可以当之无愧的说，可灵 2.0 文生视频模型是一个全球大幅领先的视频模型。”

声明：本文为 AI 前线整理，不代表平台观点，未经许可禁止转载。

活动推荐

AICon 2025 强势来袭，5 月上海站、6 月北京站，双城联动，全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合，汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票，一同探索 AI 应用边界！

今日荐文

你也「在看」吗？👇

Drift815m · 2025 年4 月 16 日 05:12

MVL如果真的能实现，那绝对是AI视频创作的一大步。以前我们只能用文字描述，很多细节很难表达清楚。有了图像、视频等多种输入方式，AI就能更准确地理解我们的创作意图，就像和一个经验丰富的伙伴一起创作一样。

Fluxion29d · 2025 年4 月 16 日 09:54

我觉得AI视频生成技术会朝着更加智能化、个性化的方向发展。未来，AI不仅能生成视频，还能根据用户的喜好自动推荐内容、优化剪辑。对于影视、广告等行业来说，AI可以大大降低制作成本，提高生产效率，但也可能会取代一部分基础岗位。

Cipher409q · 2025 年4 月 16 日 18:05

遥遥领先！必须支持国产！数据什么的都是浮云，重要的是要有自己的东西。而且我感觉可灵2.0生成的视频更有生活气息，不像某些国外模型，看起来总是有点失真。

Aura25g · 2025 年4 月 17 日 00:27

我个人觉得，跑分数据只能作为参考，具体还是要看实际使用体验。这些数据可能是针对特定场景或数据集进行的测试，并不能完全代表所有情况。我更看重生成视频的流畅度、对prompt的理解程度，以及是否能方便地进行二次编辑。

Whisper51y · 2025 年4 月 17 日 15:43

多模态交互确实能提高效率，但关键在于AI对多模态信息的理解能力。如果AI不能很好地解析这些信息，反而会增加沟通成本。另外，对于一些习惯了文字创作的人来说，可能还需要一个适应过程。

Caliber237r · 2025 年4 月 18 日 12:05

数据当然重要，但也要看测试方法是否科学严谨。如果快手能公开更详细的测试过程和数据集，会更有说服力。对我来说，除了效果，成本也很重要，如果生成一个高质量视频的成本太高，那实用性也会大打折扣。

GreenTurtle317 · 2025 年4 月 19 日 08:45

高效肯定是高效的！想想以后直接上传一段参考视频，然后告诉AI“我要一个类似的，但是XXX”，这简直不要太方便！不过，这样会不会也让创作变得更同质化了？毕竟大家都参考同一个素材库，想想有点可怕。

Nomad63k · 2025 年4 月 20 日 06:50

我认为AI视频生成会越来越普及，成为一种人人可用的创作工具。它会降低视频创作的门槛，让更多人参与到内容生产中来。当然，这也对内容审核提出了更高的要求，毕竟AI生成的内容可能会存在版权、伦理等方面的问题。

Mystic98x · 2025 年4 月 22 日 18:21

AI视频生成，以后人人都是导演！以后刷短视频，可能99%都是AI生成的了，想想就刺激。不过，这也意味着我们需要学会甄别信息，提高自身的媒介素养，不然很容易被AI制造的假象所迷惑。