昆仑万维开源SkyReels-V3:AI视频创作新纪元,马斯克也能帮你带货

昆仑万维开源SkyReels-V3,集图像转视频、视频延长、虚拟形象于一体,让AI生成视频更便捷,人人都能成为“数字导演”。

原文标题:昆仑万维开源的SkyReels-V3,把马斯克请来带货了

原文作者:机器之心

冷月清谈:

昆仑万维开源了SkyReels-V3多模态视频生成模型系列,该系列模型集成了参考图像转视频、视频延长和音频驱动虚拟形象三大核心功能。用户可以通过上传参考图像和文本描述,生成电商带货短片、人物互动场景等视频内容。视频延长功能支持单镜头延长和镜头切换延长,提供电影级的转场效果;虚拟形象模型则可根据单张肖像图和音频生成音视频同步的虚拟形象视频。昆仑万维的此次开源,旨在通过技术开放策略,加速AI视频生成领域的技术创新和应用普及。

怜星夜思:

1、SkyReels-V3开源后,你觉得哪些行业会最先受到影响?会带来哪些新的商业模式?
2、文中提到了 Runway 和 Pika 等国外产品,你觉得 SkyReels-V3 和它们相比,有哪些优势和不足?
3、你认为AI视频生成技术未来会如何发展?会给内容创作带来哪些颠覆性的变化?

原文内容

图片
编辑|杨文

AI 网红们在社交平台上混得风生水起。


他们手握品牌合作,还坐拥百万粉丝,但很多人至今不知这些都是 AI 生成的,依然像追真人明星一样互动、点赞、被种草。


视频来源:X 博主 @thetripathi58


这也难怪有博主直呼:虚拟网红时代已经到来。



现在,昆仑万维也来添了把火,直接把背后的技术开源了。


1 月 29 日,Skywork AI 团队宣布开源 SkyReels-V3 多模态视频生成模型系列。该系列涵盖参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,在单一建模架构中实现高保真多模态视频生成,达到业界领先水平。


比如,只需一张虚拟主播照片配上音频,就能生成口型精准、表情生动的主播视频:



上传几张素材图,输入文字描述,AI 就能自动编排出一条完整的带货短片:




还能像专业导演一样,为视频设计切入、切出、正反打等电影级转场效果:


图片
图片


更关键的是,这次是完全开源。任何有想法的创作者,都能用这套工具快速搭建自己的虚拟 IP,甚至批量生产内容矩阵。


  • GitHub 链接: https://github.com/SkyworkAI/SkyReels-V3

  • API 链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar


一手实测


SkyReels-V3 的实际表现到底如何?我们第一时间针对三大核心功能进行了全面测试。


参考图像转视频


这个功能允许用户上传 1-4 张参考图像,配合文本提示词,生成时间连贯、语义一致的视频。参考图像可以是人物、物体或场景,模型会精准保留身份特征、空间构图,并按照提示词编排叙事逻辑。


我们首先测试了电商应用场景。


上传马斯克的照片和小象玩偶图,输入提示词:在温馨的客厅里,马斯克坐在沙发上,微笑着拿起身旁的小象玩偶,然后将玩偶举到镜头前展示,阳光从窗户洒进来,气氛温暖。



生成视频中,即使更换了背景,马斯克面部特征也保持高度一致,未出现扭曲或者「换脸」,动作自然流畅,商品展示角度恰到好处。


图片


我们又上传了手袋商品图和素颜模特照,输入提示词:时尚的都市街头,这个模特拿着 LV 包,展示包的细节和质感。



SkyReels-V3 立马把模特置于车水马龙的都市夜景中,边走边展示产品细节,人物动作优雅,构图也很专业。


图片


我们还尝试上传多张参考图像,让不同人物或物体在指定场景下产生互动。


比如把奥特曼的照片丢给它,再来张酷炫智能眼镜和公园图片,然后下指令:男人戴着智能眼镜在公园里散步。



模型准确识别人物、物体和背景,并根据提示词编排出合理的交互动作。


图片


最近《怪奇物语》热度蹿升,我们上传三名小演员的剧照,外加一张上海外滩图片,输入提示词:这三个人在上海外滩自拍。



SkyReels-V3 能同时处理好几张完全不同的参考图,精准还原人物特征,保证整体风格统一,连服饰发型都完美迁移。


生成视频里三个人一起自拍的互动看起来毫不违和,表情特别自然,动作也流畅得很。


图片


视频延长


视频延长功能则可以将输入的视频片段延伸为更长内容,同时保持运动动态、场景结构和视觉风格的一致性。它支持单镜头延长和镜头切换延长两种模式。


镜头延长模式下,我们提供了一段女生开心面对镜头的视频,输入提示词:女孩笑着笑着突然严肃起来,延长 5 秒钟。


图片


这种从开心到严肃的表情过渡需要模型把握好微表情的变化节奏,不能太突兀。SkyReels-V3 对人脸表情动态和情绪演变的理解相当到位,延长过程中女生的面部特征、光影效果和整体视觉风格都没走样。


图片


镜头切换延长模式则更具创意空间。它支持切入、切出、多角度、正反镜头、切离五种专业转场。


具体而言,切入镜头从广角过渡到特写,切出镜头则相反;正反打镜头指的是在对话场景中,从面向一人的镜头切换到面向另一人的镜头;多角度镜头是切换到不同角度来展示当前场景;切离镜头则是过渡到当前场景中的新区域。


就以切入镜头为例。我们上传女杀手狙击的场面,输入提示词「Close-up on the girl's face as she aims, sweating」。


图片


SkyReels-V3 能够理解 Close-up 这种专业摄影术语,从瞄准动作到面部特写的过渡保持了叙事的连贯性,又通过景别变化增强了画面张力。


图片


虚拟形象模型


虚拟形象模型则可以从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互。


我们先测试了最基础的单角色虚拟形象 。上传肖像照,配上音乐片段,SkyReels-V3 快速生成一段唱歌 MV,人物唇形与音频完全同步,并能保持画面稳定。



泛化能力同样出色。我们测试了真实人物、卡通角色等不同风格,模型都能稳定生成高质量结果。


此外,它还支持多人物互动场景。我们上传了朱迪和尼克在咖啡店喝咖啡的参考图,为每个对话片段配置音频。


模型自动识别出图片形象,精准控制每个角色的开口时机,未出现两个角色同时张嘴或者对不上口型的尴尬情况。



技术解读


Skywork AI 团队此次开源,为视频生成领域带来了新的技术选择。


该系列模型在单一建模架构中集成了参考图像转视频、视频延长和音频驱动虚拟形象三大核心模块,在保持高保真度的同时实现了多模态的灵活应用。


先说参考图像转视频功能。这一能力的实现建立在三层技术创新之上。在数据构建层面,团队从海量高质量视频数据中筛选具有显著动态运动的素材,随后通过跨帧配对策略连续视频序列中选择参考帧,以确保时间多样性。


团队还利用图像编辑模型进行主体提取、背景补全和语义重写,有效避免了传统方法中常见的「复制粘贴」伪影问题,并通过多层过滤机制保障参考图像质量。


SkyReels-V3 实现了统一的多参考条件策略,能够联合编码视觉和文本信息,支持最多 4 张参考图像的灵活组合。这意味着开发者无需进行显式的手动组合,即可实现复杂的多主体、多元素视频生成。


训练策略方面,模型采用了图像 - 视频混合训练方案,联合利用大规模图像和视频数据集,并通过多分辨率联合优化提升了对不同空间尺度和宽高比的鲁棒性,原生支持多种输出配置。


在涵盖电影电视、电商、广告等场景的 200 对混合测试集上,SkyReels-V3 在参考一致性和视觉质量方面均处于国内领先位置,验证了其技术方案的有效性。


视频延长模块是 SkyReels-V3 技术实力的另一体现。


其核心创新在于双模式延长机制的设计。单镜头延长模式实现平滑的镜头继续,保持视角和叙事连贯;镜头切换延长模式则支持切入、切出、多角度、正反镜头、切离等五种专业转场类型,为视频创作提供了电影级的叙事工具。


为支撑这一能力,团队开发了专门的镜头切换检测器,能够自动分析长视频中的镜头转场,识别并分类转场类型,同时支持手动选择,有效构建了高质量的训练数据。


技术实现上,SkyReels-V3 采用了统一的多分段位置编码方案,支持复杂多分段视频延伸的精确运动建模,并通过分层混合训练实现平滑的镜头切换。鲁棒时空建模使其能够有效处理快速运动、多主体交互和场景剧变等复杂情况,确保生成内容的物理可信度和时间连贯性。


该模块支持 480p 和 720p 分辨率,单镜头延长可调节 5 至 30 秒长度,并支持 1:1、3:4、4:3、16:9、9:16 等多种宽高比,为不同应用场景提供了灵活的输出选项。


虚拟形象模型的技术方案则聚焦于音视频精准对齐和关键帧约束生成机制


研究团队开发了专用的音视频对齐训练策略,通过区域掩码建模显式的语音单元与面部运动的对应关系,实现了对多语言、多风格、快速语速的鲁棒性能。


关键帧约束生成则通过建立结构重要的关键帧,生成帧间平滑过渡,确保长视频中的角色一致性和自然运动流。


从整体架构来看,SkyReels-V3 的核心优势在于其模块化设计理念。三大功能模块各自经过深度优化,既可以独立使用,也能根据实际需求灵活组合,为不同应用场景提供了充分的适配空间。


企业级的数据处理管线确保了生成质量的稳定性,而在推理端,团队融合了蒸馏、量化及算子优化等多项技术,打造出低延迟、高吞吐的推理引擎,使得模型在实际部署中具备更强的可用性。


在训练效率方面,SkyReels-V3 采用了极致的显存与计算优化方案,支撑起高分辨率长视频的千卡级稳定高效训练。


结语


SkyReels-V3 选择完全开源,某种程度上反映了 AI 视频生成领域的竞争态势。


在 Runway、Pika 等国外产品凭借先发优势占据市场时,国内团队通过开源策略快速建立生态、获取反馈、迭代优化,不失为一种聪明的打法。


而这背后的底气,自然源于昆仑万维在视频生成领域的长期技术积累。


早在 2025 年 2 月,昆仑万维就开源了中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1


4 月,SkyReels-V2 作为全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型正式发布。随后,SkyReels-A2 带来了可控视频生成框架,SkyReels-A3 则实现了任意时长的全模态音频驱动数字人创作。


昆仑万维在视频生成领域的迭代速度和技术深度可见一斑。


除此之外,昆仑天工还自研了包括语言大模型、多模态大模型、SWE 代码大模型、Agent 大模型、视频大模型、3D 大模型、音乐大模型、音频大模型在内的 8 大模型矩阵,并持续开源几十个模型,在多个国际评测中取得开源最优成绩。


视频模型只是这个 AI 矩阵中的一环,却是连接文本、图像、音频等多模态能力的关键节点。


此次 SkyReels-V3 的开源,预示着 AI 视频生成的竞争正在进入更激烈的阶段。技术壁垒逐渐被打破,真正的较量也才刚刚开始。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这问题问得好!我觉得短期内肯定是降低门槛,让更多人能参与进来,毕竟以前得砸钱请团队才能搞定的东西,现在自己就能捣鼓了。但是长期来看,如果工具太普及,内容同质化肯定会加剧,最后还是得看谁的创意更胜一筹,所以头部效应可能反而会更明显。就看谁能把AI用出新花样了。

这还用说,肯定会有一大波AI速成视频涌现。想想各种鬼畜视频、AI洗脑广告,感觉未来短视频平台会更加魔幻。但另一方面,也能激发更多创意,让更多人参与到内容创作中来,就看大家怎么用了。

从学术角度看,AI在视频编辑领域的发展潜力体现在以下几个方面:一是更精细化的内容理解,AI需要能够准确识别视频中的物体、人物、场景以及它们之间的关系;二是更强大的生成能力,AI需要能够根据用户的需求生成各种风格的视频特效和转场;三是更智能的决策能力,AI需要能够在剪辑过程中自动做出各种决策,例如选择最佳镜头、调整画面节奏等。

我认为影响是多方面的。一方面,确实会降低创作门槛,让更多有创意但缺乏专业技能的人更容易表达自己。另一方面,也可能会加剧行业竞争,倒逼创作者在内容质量和创意上下功夫。此外,AI生成内容也可能带来版权问题和伦理挑战,需要引起重视。

从技术层面来看,SkyReels-V3需要在以下几个方面进行完善:一是提高生成视频的清晰度和分辨率,达到商业应用的标准;二是增强对复杂场景和人物动作的建模能力,使其能够生成更具创意和表现力的视频内容;三是优化模型的推理速度和资源消耗,使其能够在更多设备上运行。此外,还需要加强对生成内容的审核,避免出现违规或有害信息。

这玩意儿开源,感觉以后短视频的门槛更低了,但是想做出爆款也更难了。大家都用一样的工具,拼的就是创意和内容本身了。没准以后会出现一批专门研究怎么用AI生成视频的“炼丹师”,谁的prompt写得好,谁就能做出更吸引人的视频。

我觉得影响挺大的!降低了创作门槛是肯定的,以后说不定人均都能当短视频导演了。 但是,AI再厉害,也得看你的idea好不好,能不能抓住用户眼球。瓶颈可能还是创意和内容的差异化吧,毕竟AI只是工具。

我比较关注开源带来的商业模式的转变。以前卖模型、卖API是主要的盈利方式,但开源之后,可能需要探索新的 revenue stream,比如提供增值服务、定制化解决方案,或者基于开源模型开发自己的App等等。 这对昆仑万维的商业化能力提出了更高的要求。

我可能会选择美食领域,创建一个虚拟美食博主,分享各种美食制作教程和探店视频。用SkyReels-V3可以快速生成各种场景和人物,降低拍摄成本,提高内容产量。

从学术角度考虑,感觉可以往更精细化的控制方向发展。现在只能通过文本提示词来控制视频内容,未来是不是可以加入更多交互式的控制方式?比如,用户可以直接在视频中指定某个物体的运动轨迹,或者调整光影效果等等。

另外,还可以研究如何让AI更好地理解物理世界的规律,生成更逼真的视频。

从伦理角度出发,我认为未来的发展方向应该是更注重版权保护和内容审核。AI 生成的内容很容易侵犯他人版权,也可能被用于传播不良信息。因此,需要建立完善的监管机制,确保 AI 视频的健康发展

开源肯定是好事,加速国内AI视频技术的发展。大家一起贡献代码、分享经验,技术才能进步更快,避免闭门造车。不过,也难免有竞争,毕竟蛋糕就这么大,谁能做出更好的产品,谁就能抢占市场。

从技术角度分析,SkyReels-V3的转场功能涉及到图像处理、视频编辑、计算机视觉等多个领域的知识。实现高质量的转场需要对光影、色彩、运动等因素进行精确的控制和调整。在实际应用中,需要根据不同的场景和需求选择合适的转场方式,并进行精细的参数调整,才能达到最佳的视觉效果。同时,也要考虑到硬件设备的性能和用户体验,避免出现卡顿或者延迟等问题。

电影级转场绝对是加分项啊!想想看,如果带货视频也能像电影一样有氛围感,转化率肯定更高。感觉游戏解说、vlog、产品测评这些内容就很适合用转场来提升视觉效果。不过,也要注意别过度使用,不然会显得很花哨,反而影响观看体验。

开源?那不就是把自己的代码免费送给别人吗?傻子才干!不过话说回来,开源也能吸引人才,让更多牛逼的人帮你改代码,说不定还能发现一些隐藏的bug。至于其他公司要不要学,我觉得他们肯定在偷偷摸摸的研究,看看能不能白嫖到一些技术,哈哈!

我觉得在文物修复和历史场景重建方面有潜力。比如,可以根据历史资料和少量残存的文物照片,AI生成文物原貌的视频,甚至是当时人们生活的场景,让历史“活起来”。

其实不用太悲观,AI只是工具。就像当年摄影技术出现时,绘画并没有消失,而是发展出了新的方向。视频创作也会一样,AI会催生出新的视频形式和创作模式。

电商应用潜力巨大。除了短视频,还可以用于商品建模、3D展示,甚至是VR/AR购物体验。比如,用户可以在家里“试穿”衣服,“试用”家具,大大提升购物的便捷性和趣味性。关键在于如何将AI技术与电商业务深度融合,打造差异化的竞争优势。

个人理解,SkyReels-V3 的核心优势在于其对多模态信息的综合处理能力。它不仅仅是简单地将图像、视频和音频拼接在一起,而是能够理解它们之间的内在联系,从而生成更具表现力的内容。但任何模型都有自己的擅长和不擅长之处,SkyReels-V3可能在处理一些需要高度专业知识或创意的内容时会遇到挑战。总的来说,它是一个很有潜力的工具,但还需要不断迭代和完善。