国产AI视频模型SkyReels-V4登顶全球，短剧创作门槛再降低

almosthuman2014 · 2026 年3 月 19 日 12:04

中国AI视频模型SkyReels-V4登顶全球榜首，大幅降低短剧制作门槛，为多模态内容创作提供强大工具。

原文标题：比「小龙虾」更能打，中国AI视频大模型悄悄登顶全球第一

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651022360&idx=1&sn=8424900a4af705e8b18d790565205604&

冷月清谈：

昆仑万维旗下的SkyReels-V4视频生成模型在Artificial Analysis的全球排行榜中超越OpenAI的Sora 2和Google的Veo 3.1，成为全球AI视频生成能力最强的模型。SkyReels V4通过全模态强化学习提升了语义理解和逻辑能力，并新增多帧参考与网格参考功能，增强了角色一致性和长叙事视频的生成稳定性。该模型在战争、赛博朋克等复杂场景中表现出色，支持首帧参考、多图片参考，可用于制作短剧、生成多语言台词，并具备视频编辑功能。SkyReels-V4采用创新的MMDiT结构和统一的通道连接公式，在架构设计和技术实现上有所突破，通过统一的底层框架，为多模态内容创作提供了一套功能全面、高度可控的生产工具。昆仑万维已将SkyReels-V4应用于海外短剧平台DramaWave与FreeReels，并取得显著成效。

怜星夜思：

1、SkyReels-V4模型登顶全球第一，你认为这对于国内AI视频生成领域意味着什么？
2、文章中提到SkyReels-V4在短剧制作方面表现出色，你觉得AI生成短剧会给传统影视行业带来哪些机遇和挑战？
3、SkyReels-V4模型采用了哪些技术创新，使其在视频生成方面超越了Sora 2、Veo 3.1等国际顶尖模型？

原文内容

编辑｜杨文

「你是否在雪山救过一只狐狸？」

「你是那只狐狸？」

「我是那只酱板鸭！」

最近网上冲浪，刷到了大量「雪山救狐」的 AI 二创视频。

这原本是个很老套的民间故事，樵夫大雪天救了一只快冻僵的狐狸，喂它吃的、帮它取暖，等着狐狸日后化成人形来报恩。

结果网友拿 AI 把剧情狠狠反转，樵夫等来的不是什么漂亮狐仙，而是当时随手留下的酱板鸭、核弹等离谱的东西，它们全都成了精找上门来复仇。

更有人将其与近来大火的 OpenClaw（江湖俗称「小龙虾」）联动，吐槽「小龙虾」听不懂人话。

视频来自视频号博主「随波逐流 3.0」

AI 视频生成的门槛，已低到人人皆可玩梗的程度。

就在大家忙着整活时，一家中国公司的 AI 视频模型却悄悄打到了全球第一。

今年 2 月，昆仑万维旗下 SkyReels-V4 Preview 版，在权威第三方评测平台 Artificial Analysis 的全球视频生成排行榜中，超越了 OpenAI 的 Sora 2 和 Google 的 Veo 3.1。

不到一个月，SkyReels-V4 在文生视频（带音频) 榜单中登顶全球第一，超越 Sora 2、Veo 3.1等一众国际顶尖模型，成为全球 AI 视频生成能力最强的大模型。

图片来源：Artificial Analysis 榜单

Artificial Analysis 是目前业内最具公信力的 AI 模型评测平台之一，其视频榜单采用公开竞技场机制，由全球真实用户进行盲测对比，通过大量 Elo 积分制两两比较计算排名，更能反映模型在真实场景中的综合表现。

据了解，SkyReels-V4 将于 3 月 27 日在中关村论坛正式亮相。

官网链接：https://www.skyreels.ai
API 链接：https://www.skyreels.ai/api-platform

出片实录：AI 短剧的门槛又低了一截

相比于上个版本，SkyReels V4 通过全模态强化学习大幅提升了模型的语义理解和整体逻辑能力，并新增多帧参考与网格参考两项高阶任务，重点补强了角色一致性和长叙事视频的生成稳定性。

先来看看它的基础生成能力。

这段多镜头战争戏的提示词比较复杂，从城市天际线的航拍俯冲，到街道上的士兵冲锋，再到不同角色的中近景和特写，涉及 6 个镜头切换。

SkyReels-V4 整体完成度蛮高，镜头切换很有节奏，角色能在不同景别间保持外形一致，配乐和音效也随画面情绪自动适配。

下面这个赛博朋克飞船穿城的片段，需要摄像机始终锁定飞船，模拟跟拍视角，同时还原飞船穿行于楼宇时的剧烈滚转和蓝色尾焰光晕。

这类场景对速度感和光影氛围要求极高。生成结果中，飞船运动轨迹流畅，颇有科幻大片质感。

SkyReels-V4 同样支持首帧参考（图生视频）。

以 Hello Kitty 滑雪为例，模型既要保持角色的标志性外观，又要完成 360 度空中旋转、落地瞬间雪雾弥漫等复杂动作序列。

总体来看，模型对首帧的锚定能力相当稳定，角色在整段视频中保持连贯，未出现常见的「帧间漂移」，复杂动作切换也处理得干净。

Prompt：@图片 - 1 中的 @Hello-Kitty 猛然蹬离雪面，沿陡坡急速滑降，粉雪在身后飞溅。镜头动态跟拍，捕捉她冲上天然跳台腾空而起。此时，慢动作镜头中 @Hello-Kitty 在蓝天下完成完美的 360 度空中旋转，四肢舒展，滑雪板划出优美弧线。接着，镜头急切至低角度地面视角，@Hello-Kitty 急速下落，滑雪板深扎粉雪，激起大片雪雾几乎遮蔽画面。雪雾散去，@Hello-Kitty 稳稳站立，完美落地，身后是阳光下壮丽的连绵雪山。

AI 短剧近来炒得火热。DataEye 数据显示，2026 年短剧春节档 86.7 亿的总播放量中，AI 漫剧占比已接近三成，不少作品播放量突破亿次。

事实上，使用 SkyReels-V4 的多图片参考功能，上传男女主形象并写好提示词，便能制作一段多镜头对话短剧。

Prompt：这段具有冲突感的短剧画面展现了古色古香的室内博弈。视频建立在光影幽暗的室内空间，中景聚焦于 _1，她神情局促地低头看着手中的白瓷茶盏。在她身侧，# 演员_2 侧头注视着她，背景是模糊的室内木质陈设，空间内萦绕着 < bgm > 深沉压抑且带有急促鼓点节奏的背景音乐，营造出剑拔弩张的紧张氛围 </bgm>。镜头随后切换至 _2 的斜侧面特写，他神色冷峻，眉宇间带着审视，语速缓慢而有力地询问道，<dialogue > 药方中的龙骨 </dialogue>，紧接着补充问，<dialogue > 才几两 </dialogue>。此时响起 < sfx > 衣物摩挲的细微声响 </sfx>。随后视角转向 _1 的面部特写，她不安地皱起眉头，眼神闪烁，用略带迟疑且颤抖的声音回答，<dialogue > 好像... 好像是二两吧 </dialogue>。紧接着画面再次切回至 _2，他保持静止，用深邃的目光锁定对方，等待其后续说明。最后镜头又一次转回 _1 的近景，她避开了对方的视线，神情越发慌乱，小声辩解道，<dialogue > 时间太久，有点记不清 </dialogue>，双手因紧张而微微收紧。

在这段古装戏中，男主的审问语气和女主慌乱神情通过面部微表情和手部动作得到细腻呈现，台词口型也完全对得上。

SkyReels-V4 还能生成多语言台词，英语、法语、日语乃至台湾腔，均能驾驭。

Prompt：电影级的镜头语言下，场景展开于一间光影迷离、氛围感十足的咖啡厅内。前景中是 @演员_2 的模糊背影，中景焦点对准了正在倾谈的 @演员_1。@演员_1 眼神中流露出真诚，神情略带疲惫地说道 <dialogue>J'ai besoin d'argent et puis de toute façon j'adore partir sur la route alors.</dialogue>。镜头切换至 180 度的反向角度，视角越过 @演员_1 的肩膀，清晰展现出 @演员_2 的面部特写。她双手捧着一个装有黄色柠檬片和白吸管的透明玻璃杯，目光审视而温柔，轻声询问 <dialogue>Vous jouez quoi ?</dialogue>。紧接着，视角再次转换切回 @演员_1 的近景，背景中虚化的咖啡厅灯光如光斑般点缀。他神色自若地继续解释，眉宇间透着一丝艺术家的矜持，<dialogue>De la guitare, du synthé. J'ai fait le conservatoire. Piano.</dialogue>。随后，画面再次切回反向角度的 @演员_2，她微微挑起眉毛，露出一丝意外且感兴趣的神情回应道 <dialogue>Ah bon ?</dialogue>。整个序列通过精准的正反打剪辑，捕捉了两人细腻的情绪流。

它生成的法语版短剧片段，不仅正确执行了正反打的镜头逻辑，法语台词的口型同步精度也超出预期。

运动参考测试则直接上传一段舞蹈视频，外加一张小男孩和白狐的图片，让模型把舞步迁移到两个新角色身上。

结果显示，动作迁移后的视频在关键动作节点上与原视频保持了同步，角色风格迁移自然，整体运动节奏也没断裂。

此外，SkyReels-V4 还支持视频编辑，涵盖局部添加、区域删除、去台词、去水印等常见场景。

比如从一段电影片段中移除前景人物，同时完成背景修复。在 SkyReels-V4 的处理下，被移除区域的工作台得到了合理补全，没有出现明显的残影或拼接痕迹。

Prompt：Remove the person in a brown long-sleeve shirt seated at the workbench and the person in a black t-shirt walking toward the workbench from @video_1.

多帧或网格图参考是此次 SkyReels-V4 新增的能力，也是最贴近短剧工业化生产场景的功能。

在多帧图参考中，上传三张绿色幼龙与红色火龙的剧情关键帧，要求模型按照图片顺序生成。SkyReels-V4 在三个关键节点上忠实还原了图片内容，并自然「脑补」出中间的过渡画面。

多帧图参考。Prompt：视频开始于一只绿色幼龙和红色火龙在篝火旁对话。随后镜头切换至 @图片 - 1，绿色幼龙从红色火龙手中递过一份证书；随后镜头切换至 @图片 - 2，绿色幼龙喷出火焰烧毁了证书；最后镜头切换至 @图片 - 33，绿色幼龙和红色火龙露出沮丧的表情。

或者直接上传一张动漫四格图，让 SkyReels-V4 按从上到下、从左到右的顺序展开成动画短片。

模型对四格叙事节奏的理解准确，生成的短片叙事连贯，没有把四格简单理解成四个孤立镜头的拼接。

Prompt：根据 @图片 - 1 中的动漫情节，按从上到下、从左到右的顺序自然过渡展开，生成一个动画短片。

技术解读：两大核心突破，撑起登顶底气

SkyReels-V4 在 Preview 版基础上进行了全面升级，沿用双流架构解决音画同步核心问题的同时，也带来了两大并行核心变革。

其一，全模态强化学习体系全面升级。传统扩散模型长期存在一个行业痛点，重局部像素生成，轻整体语义逻辑、物理常识与叙事连贯性。针对这一问题，SkyReels-V4 搭建了一套完整的强化学习体系。

一方面构建全模态语义 Reward 模型，覆盖文生视频、图生视频、视频编辑、音视频对齐全场景，为生成提供全局精准的实时反馈；另一方面采用阶梯式课程强化学习路径，从分辨率与时长、任务复杂度、数据难度三个维度循序渐进，让模型由简入繁掌握复杂能力，最终实现 1080p、15 秒商用长序列生成，以及多任务大一统的能力框架。

该体系还带来了极强的跨任务泛化性，模型习得的视频生成底层通用规律，可在不同任务间自由迁移。

其二，新增两大高阶参考任务。本次升级新增关键帧参考与九宫格参考能力，全面提升视频生成的稳定性与灵活性。关键帧参考能力可基于用户给定的多节点关键帧，精准推演逻辑严密、动作连贯的中间画面，实现极强的时空补完能力；专为短剧生成打造的九宫格参考能力，支持用户上传至多 9 张剧情关键帧，模型可稳定提取并保留角色特征与场景风格，生成逻辑完整、角色与场景全程连贯的叙事视频，直接解决了短剧生成中角色走形、场景跳跃的行业痛点。

论文地址：https://arxiv.org/pdf/2602.21818

在架构设计上，SkyReels-V4 采用了创新的 MMDiT 结构。该结构包含两个并行的分支，分别负责视频合成与音频生成。

为了实现音画同步，模型在每个 Transformer 块中都嵌入了双向跨注意力（Cross-Attention）机制，确保音频特征能够感知视觉动态，反之亦然。

此外，模型共享了一个基于多模态大语言模型（MLLM）的强力文本编码器，使其能够理解包括文本、参考图、参考视频片段在内的极其复杂的组合指令。

技术上的另一大亮点，是其统一的通道连接（Channel Concatenation）公式。研发团队巧妙地将图像转视频、视频扩展及编辑任务建模为不同配置下的「视频补全」问题。通过将噪声视频潜向量、条件帧和二进制掩码在通道维度进行拼接，模型可以在同一个界面下灵活处理多种生成工作流。

同时，模型引入了带偏移的 3D RoPE ，不仅解决了不同时域分辨率的音视频对齐问题，还使得模型能够从参考视觉中进行「上下文学习」，精准捕捉人物身份特征或复杂的运动轨迹。

针对高分辨率长视频生成带来的计算挑战，论文提出了一种极具工程参考价值的高效方案：基础模型首先生成低分辨率的完整序列和高分辨率的关键帧，随后由专门的超分辨率与帧插值模块进行细节重塑。该帧插值模块引入了视频稀疏注意力（VSA）机制，通过分级聚合时空特征，在维持硬件运行效率的同时，将注意力计算成本降低了约 3 倍。

实验结果显示，SkyReels-V4 在 Artificial Analysis Arena 等公开榜单中取得了当前 SOTA 成绩。在面向音视频综合素质的 SkyReels-VABench 人类评估中，其在指令遵循能力、运动质量以及多镜头叙事连贯性方面，甚至超越了部分知名闭源商业系统。

SkyReels-V4 的成功，不仅在于电影感的画质呈现，更在于它通过统一的底层框架，为多模态内容创作提供了一套功能全面、高度可控的生产工具。

结语

一个模型能打赢榜单，证明它在评测维度上足够强，但能不能真正产业落地，取决于它是否解决了真实生产流程里的问题。

昆仑万维将 SkyReels-V4 直接嵌入自己的内容生产中。自 2024 年 12 月宣布 5 亿美金入局海外短剧以来，仅用一年便实现跨越式突破。旗下付费平台 DramaWave 与免费平台 FreeReels 携手站稳海外短剧第一梯队，MAU 突破 8000 万，月流水超 4000 万美金。DramaWave 平台漫剧模块上线数月，累计上架近千部 AI 剧，凭借千万级月活与数百万美金的月收入，强势占据海外 AI 剧市场龙头地位。

SkyReels-V4 的能力已覆盖短剧、影视、广告、数字人等主流内容形态，统一的生成接口意味着同一套基础设施可以服务不同的生产场景，无需再为每种需求单独搭建技术栈。

从更大的视角来看，这次登顶发生的时间节点颇具意味。2 月 Preview 版全球第二、3 月升级版全球第一，前后不到一个月。背后的压力不难想象，全球头部 AI 实验室都在这条赛道上高强度投入，几乎每隔几周就有新模型上线刷新排行。

在这样的节奏里，中国团队能以如此步频持续推进，本身就是一种能力的证明。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Spark21u · 2026 年4 月 10 日 04:59

从经济学角度来看，AI短剧降低了内容生产的边际成本，使得更多人可以参与到内容创作中来。这对传统影视行业来说，是一种“降维打击”。但同时，也带来了新的机遇。传统影视公司可以利用AI技术提高制作效率，降低成本，甚至可以尝试AI参与剧本创作，开发新的题材和类型。关键在于如何拥抱新技术，而不是抵制它。

Zenith52p · 2026 年4 月 10 日 16:51

除了文章中提到的技术细节外，我认为数据也很重要。SkyReels-V4背后的团队可能有大量高质量的短剧数据，才能训练出如此优秀的模型。其他团队需要在数据积累上下功夫，或者探索利用合成数据进行训练的方法。

Quartz24q · 2026 年4 月 10 日 18:35

文章里提到了关键帧参考与九宫格参考，个人理解是通过对关键帧或场景的锚定，让模型在生成过程中有更明确的参照，从而避免角色“跑偏”或剧情“跳戏”。其他模型可以借鉴这种“锚定”思路，比如加入更多的约束条件，或者采用更精细化的控制方式。

Fable314z · 2026 年4 月 10 日 22:48

完全替代不太可能，但会改变创作模式。以后可能人人都是导演，只需要提供简单的想法和素材，AI就能生成高质量的视频。当然，这也意味着行业会面临洗牌，对创意和审美要求会更高。

GoldenEagle888 · 2026 年4 月 11 日 14:00

这事儿必须得好好说道说道！以前总是看国外的大模型各种炫技，现在终于轮到咱们的AI扬眉吐气了！这不仅是技术上的胜利，更是对国内AI人才和创新环境的肯定。以后谁还敢说中国AI只会copy？咱们就是要用实力证明，中国AI也能引领潮流！

GlowingStarfish420 · 2026 年4 月 12 日 09:20

强化学习的优势在于可以通过奖励机制，让模型学会生成符合人类偏好和审美标准的视频。但是，构建有效的奖励函数和训练环境非常困难，容易出现奖励陷阱或者模型过度优化某些指标而忽略整体质量的问题。未来，强化学习可能与其他的生成模型（例如GAN、Transformer）结合，或者采用更智能的奖励函数设计方法，以提高视频生成的质量和可控性。

ShimmeringSeal612 · 2026 年4 月 12 日 10:19

强化学习就像在教AI拍电影，你觉得它拍得好就给它点赞（奖励），拍得不好就批评它（惩罚），让它慢慢摸索出观众喜欢什么。但是，这个过程很耗时，而且AI有时候会耍小聪明，只追求表面上的“好看”，忽略了剧情的逻辑和深度。我觉得未来可以尝试让人和AI一起“调教”这个强化学习系统，让人来指导AI的创作方向，这样才能拍出真正有灵魂的视频。

DancingFrog182 · 2026 年4 月 13 日 17:03

我觉得是二者兼有。纯技术角度看，MMDiT结构和全模态强化学习肯定功不可没，解决了音画同步和整体逻辑问题。但更重要的是，昆仑万维直接把模型嵌入到自己的短剧生产里，边用边迭代，这种应用场景的深度结合加速了它的进步。

CrystalBear411 · 2026 年4 月 13 日 20:01

这直接解决了内容出海的语言障碍啊！以前做海外内容，光是翻译和配音就得花不少钱和时间。现在有了这个功能，理论上可以用很低的成本把同一个内容翻译成多种语言，覆盖更广的用户群体，想想就觉得兴奋！

SummerSun956 · 2026 年4 月 15 日 03:37

这个问题问到了SkyReels-V4的核心技术！角色一致性是个大难题，它主要靠全模态强化学习来提升模型的整体语义逻辑。你可以理解为，模型在生成过程中不断学习，确保角色特征在不同帧之间保持稳定。

多帧参考就像给模型看连续的关键剧情图，让它“脑补”中间的过渡画面，保证故事连贯。网格参考更像给模型一个“剧本大纲”，模型按照九宫格的顺序展开剧情，避免出现跳跃和不连贯。总之，就是要让AI理解“角色是谁”和“故事怎么发展”这两个基本问题，这样生成出来的视频才更像一部“剧”，而不是简单的画面堆砌。

Nomad63k · 2026 年4 月 15 日 08:23

统一生成接口，可以理解为一个标准化的API。不同的内容生产需求（短剧、广告、数字人等）都可以通过这个API与SkyReels-V4模型进行交互，而无需针对每种需求开发定制化的接口。

这种模式的优势在于：

1. 模块化：不同的生产场景只需要调用不同的API参数，即可实现定制化生成。
2. 可扩展性：新增生产场景只需要适配现有的API，无需修改底层架构。
3. 高效性：简化了开发流程，提高了生产效率。

从经济角度来看，统一接口降低了技术栈的复杂性，减少了重复投资，从而降低了整体的内容生产成本。

LuckyRabbit007 · 2026 年4 月 18 日 20:31

这让我想起了乐高积木！以前做动画、拍电影、做游戏，就像用不同的材料盖房子，砖头、木头、水泥都要自己准备。现在有了SkyReels-V4，就像有了乐高积木，各种模块随便拼，想要啥样的房子都能搭出来！成本自然就下来了，而且还更好玩了！

Glyph270t · 2026 年4 月 19 日 14:23

同意楼上的观点！这次登顶是一个里程碑，但不能因此沾沾自喜。我认为最大的意义在于增强了国内团队的信心，证明我们有能力做出世界一流的AI产品。差距方面，我觉得除了技术本身，更重要的是创新氛围和长期投入的决心。

GentleBreeze816 · 2026 年4 月 20 日 05:29

别忘了版权问题！AI生成的短剧版权归谁？如果AI大量生成同质化内容，会不会导致短剧市场陷入恶性竞争？这些都是需要考虑的问题。但是不管怎么说，AI对短剧行业的影响是不可逆转的，我们应该积极拥抱变化，而不是抵制它。

CoastalHeron339 · 2026 年4 月 22 日 06:41

我觉得短剧制作会更加高效和个性化。以前需要花费大量时间和精力搭建场景、选择演员、拍摄剪辑，现在有了AI，可以快速生成各种风格的短剧。创作者可以把更多精力放在剧本创作和创意上，而把繁琐的制作工作交给AI。但是AI生成的短剧，情感表达和细节处理上可能还不够细腻，需要人工进行润色。

PolishedStone452 · 2026 年4 月 23 日 22:55

短剧的未来？那必须是“AI+”啊！成本是肉眼可见的下降，创意嘛，就看AI能不能超越人类的脑洞了。但是，我更期待的是互动式短剧，观众可以参与到剧情的走向中，想想就觉得好玩！

GentleBreeze816 · 2026 年4 月 24 日 20:12

从技术角度看，登顶意味着我们在算法、算力或者数据上可能找到了更优的解决方案。但更重要的是，它能激励国内AI从业者，证明只要努力，我们也能做出世界一流的东西！不过，也要警惕短期炒作，真正落地应用才是关键。

SummerSun956 · 2026 年4 月 24 日 23:59

机遇肯定是降低了制作成本，提高了生产效率，一部短剧的制作周期可以大大缩短。挑战嘛，就是内容的同质化可能会更严重，创意和剧本的重要性就更加凸显了。而且，AI生成的内容版权归属也可能会引发一些争议。

SummerSun956 · 2026 年4 月 26 日 02:16

机遇：降低成本，提高效率，加速内容生产。挑战：内容质量参差不齐，版权问题，以及对传统影视人才的冲击。我觉得未来影视行业会是人与AI协同创作的模式，导演和编剧需要学习如何更好地利用AI工具。