快手可灵AI数字人技术揭秘:Kling-Avatar实现从“对口型”到“会表演”的进化

快手可灵AI数字人技术公测,实现情绪、动作、镜头全方位表演,生成分钟级长视频。

原文标题:从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

原文作者:机器之心

冷月清谈:

快手可灵团队推出了全新的AI数字人功能,实现从单纯的口型同步进化到能自然扬起嘴角、眼神含笑,乃至在分钟级长视频中进行连贯且富有情绪的表演
这项技术的核心是基于多模态大语言模型(MLLMs)的两阶段生成框架。它通过“多模态导演模块”解析音频、图像和文字指令,形成结构化的剧情描述,并生成一个全局一致的“蓝图视频”。随后,系统利用这个蓝图视频选择关键帧,并行生成多个子段落视频,最终拼接成完整的长视频,并加入音频对齐插帧策略确保口型与声学节奏的同步。为了保证生成视频的质量,团队还设计了口型对齐、文本可控性和身份一致性等训练与推理策略。经过与现有顶尖产品的对比测评,可灵数字人在整体效果、口型同步、画面质量和指令响应方面均表现出色,尤其在情绪控制和长视频生成方面展现出显著优势。目前,该功能已在可灵平台开启公测。

怜星夜思:

1、文章提到可灵数字人能够实现“情绪、动作、镜头”的精准控制,甚至能表演分钟级的长视频。大家觉得这种高度拟真的AI数字人,在未来的娱乐、教育或者其他领域,可能会带来哪些颠覆性的变化或者潜在的挑战呢?
2、可灵数字人采用了多模态大语言模型赋能的两阶段生成框架,听起来挺复杂的。除了文章里提到的口型对齐、身份一致性等,你觉得在实现这种“真表演”的过程中,还有哪些技术细节或者说“卡脖子”的关键点是特别难攻克的?
3、可灵数字人强调了『影视级演绎』,并超越了如HeyGen等竞品。除了性能上的提升,你们觉得它在实际应用中,相较于其他同类产品,最大的差异化优势或者说『杀手级』特点会是什么?

原文内容

机器之心发布

机器之心编辑部


让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起伏,肩膀与手臂有节奏地带动气氛。观众看到的不再只是嘴在动,而是整个人在表演。这种表现不仅限于几个片段,而是能够稳定地延续到分钟级长视频中,在整段时间里保持动作自然、镜头流畅。


近日,快手可灵团队把这一构想带到了现实。全新数字人功能已在可灵平台开启公测目前逐步放量中。技术报告 Kling-Avatar 与项目主页也已同步发布。报告系统解析了可灵数字人背后的技术路径,阐明如何让一个只能跟着声音对口型的模型,进化为能够按照用户意图进行生动表达的解决方案


可灵数字人产品界面。网址:https://app.klingai.com/cn/ai-human/image/new



  • 论文地址:https://arxiv.org/abs/2509.09595

  • 项目主页:https://klingavatar.github.io/


首先看一些效果:





实现这些惊艳效果的背后,是快手可灵团队精心设计的一套多模态大语言模型赋能的两阶段生成框架。


多模态理解,让指令变成可执行的故事线


借助多模态大语言模型在生成与理解一体化上的能力,Kling-Avatar 设计了一个多模态导演模块(MLLM Director),把三类输入组织成一条清晰的故事线: 从音频中提取语音内容与情感轨迹;从图像中识别人像特征与场景元素;将用户的文字提示融入动作方式、镜头语言、情绪变化等要素。导演模块产出的结构化剧情描述,通过文本跨注意力层注入到视频扩散模型中,生成一段全局一致的蓝图视频,明确整段内容的节奏、风格与关键表达节点。


Kling-Avatar 方案框架。由多模态大语言模型 (MLLMs) 赋能的 MLLM Director 首先将多模态指令解释为全局语义和连贯的故事线,基于该全局规划生成一个蓝图视频,然后从蓝图视频中提取首尾帧作为条件控制,并行生成子段视频。


两阶段级联生成的长视频生成框架


蓝图视频生成后,系统在视频流中根据身份一致性、动作多样性、避免遮挡、表情清晰等条件,自动挑选若干高质量关键帧。每相邻两帧作为首尾帧条件,用于生成一个子段落。所有子段落根据各自的首尾帧并行合成,最后拼接得到完整视频。为避免首尾帧处画面与实际音频节拍的错位,方法还引入音频对齐插帧策略,保证口型与声学节奏的帧级同步。


此外,团队还精心设计了一系列训练和推理策略,保证视频生成过程中音频与口型的对齐和身份一致性:


  • 口型对齐:将音频切分成与帧片段对齐的子段,通过滑窗方式注入音频特征;自动检测嘴部区域加权去噪损失;通过对视频帧做手动扩展,增强画面中人脸占比较小情况下的对齐效果,进一步提升口型对齐任务在远景场景下的适应能力。

  • 文本可控性:冻结文本跨注意力层参数,避免基座视频生成模型在专门数据上过拟合而弱化文本控制。

  • 身份一致性:在推理阶段对参考图像构造 “退化负样本”,作为负向 CFG,抑制纹理拉花、饱和度漂移等身份漂移模式。


训练与测评数据管线


为了获得多样高质量的训练数据,团队从演讲、对话、歌唱等高质量语料库中收集数千小时视频,并训练多种专家模型用于从嘴部清晰度、镜头切换、音画同步与美学质量等多个维度检测数据的可靠性。对专家模型筛选出的视频,再进行一遍人工复核,得到数百小时高质量训练数据集。


为了验证方法的有效性,团队制作了一个包含 375 个 “参考图–音频–文本提示” 的测评基准,该测评基准包含了丰富的输入样例,图片涵盖真人 / AI 生成图像、不同人种、以及开放情境中的非真人数据;音频涵盖中 / 英 / 日 / 韩等多种语言,包含不同语速和情感的台词;文本提示包含多种多样的镜头、人物动作、表达情绪控制。该测评基准为现有方法提供了极具挑战性的测试场景,能够充分评估数字人像视频生成方法在多模态指令跟随方面的能力,将在未来开源。


验结果对比


在定量验证方面,团队精心设计了一套基于用户偏好的 GSB(Good/Same/Bad)测评体系。对每个样本,由三名评测者将 Kling-Avatar 与对比方法逐一比较,给出 “更好”(G),“一样”(S),“更差”(B) 的判断。最终汇报 (G+S)/(B+S) 作为指标,用以衡量 “更好或不差” 的占比。同时在四个维度给出分项结果:总体效果、口型同步、画面质量、指令响应、身份一致。对比方法选择最先进的 OmniHuman-1、HeyGen 等产品。



在构建的测评基准上与 OmniHuman-1 和 HeyGen 的 GSB 可视化对比。Kling-Avatar 在绝大多数维度上取得领先。


在全部 Benchmark 和各个子测评集的 GSB 指标对比。Kling-Avatar 全面超过 OmniHuman-1,并在绝大部分指标上超过 HeyGen。


在多种场景的对比测试中,Kling-Avatar 所生成的唇形不仅在时序和形态上与音频高度一致,面部表情也随着语音的起伏变化而更显自然。即使在发音难度较高的音节(如 “truth”,其标准发音为 [truːθ],[u:] 要求双唇前突、口型小而紧)或高频语音中的短暂静音段落,Kling-Avatar 均能够准确还原相应的口型状态。



在 “情绪、动作、镜头” 三类控制上,Kling-Avatar 能够更准确地体现文本提示中的意图,在歌唱、演讲等复杂场景下的动作与镜头调度更加贴合语义。下图展示了 Kling-Avatar 生成的一些视频示例,其中包含了人物的情绪控制如 “兴奋”,镜头控制如 “镜头缓慢上移”,生成结果均有良好的响应。



Kling-Avatar 的另一大优势是长时视频生成。因为采用两阶段生成 + 级联并行生成的框架,因此在首先获得蓝图视频后,可以从蓝图视频中选择任意多数量的首尾帧,并行生成每个子段视频,最后再完整拼接在一起,总生成时间理论上与一段生成时间相当,因此可以快速稳定的生成长视频。下图展示了 1 分钟长视频生成的例子,生成结果在动态性,身份一致性保持,口型等各方面都获得了令人满意的结果。



总结


从 “对口型” 迈向 “会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar 现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。


近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。除了 Kling-Avatar,团队前不久还提出实时多模态交互控制的,二者分别在 “表达深度” 与 “响应速度” 上实现了重要突破。未来,团队将持续推进高分辨率、精细动作控制、复杂多轮指令理解等方向的前沿探索,致力于让数字人的每一次表达,都拥有真实而动人的灵魂。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

说到差异化优势,我个人觉得可灵的『影视级演绎』不仅仅是画质好,更在于情感和细节的刻画。很多数字人虽然口型对得上,但眼神呆板,表情僵硬,看起来就是个『数字人』。可灵的亮点在于『会表演』,能自然扬起嘴角、眼神含笑,这说明它在模仿人类微妙的情感变化上做得更出色。在短视频时代,内容就是要能抓住眼球并产生共鸣,一个有温度、有情绪的数字人,绝对比一个冷冰冰的播报机器更能吸引和留住观众。这也是一个巨大的商业价值点,能够让AI内容更有『人味』。

问到点子上了!我觉得可灵最大的『杀手级』特点就是它的『导演模块』和『长视频生成』能力。其他产品可能也能生成短视频或者替换人脸,但可灵通过多模态理解,能把复杂的指令转化成一个连贯的故事线,然后稳定生成分钟级的长视频,这是很了不起的。这意味着它不仅仅是一个生成工具,更像一个智能的『助理导演』,能从宏观层面把握视频的节奏和风格,这在制作Vlog、短剧、甚至是虚拟新闻播报上,效率和表现力会比竞品高出不止一个档次,尤其是在需要连续剧情表达的场景中。

针对『在实现这种“真表演”的过程中,还有哪些技术细节或者说“卡脖子”的关键点是特别难攻克的』这个问题,我觉得最难的可能还在于“情感深度”和“上下文理解”。口型对齐、表情自然只是表层,要达到“真表演”,数字人需要理解台词背后的深层含义,以及整个故事的上下文,才能做出真正符合情境的眼神、微表情和肢体动作。这不仅仅是技术参数的问题,更涉及到对人类心理和文化的模拟。比如,同样是笑,是会心的笑,还是苦笑,AI怎么去区分和准确表达?这感觉比单纯的视觉渲染难多了。

我个人认为实现『真表演』的一个大难题是细微动作的连贯性和物理世界的交互真实感。文章里说的长视频生成,虽然看着流畅,但如果镜头特写到手指的微小动作,或者数字人需要和虚拟物体进行复杂的互动,那目前的技术还不能完全做到毫无破绽。人类的动作是极其复杂的,有惯性、有重心、有不同肌肉群之间的协同。让AI在长视频中完美保持这些细节的逻辑和自然度,还需大量研究。另外,高逼真度数字人与现实环境光影的实时融合,也是个硬骨头,尤其是在多变场景下。

从技术伦理角度来看,当数字人能如此逼真地模仿人类情感和行为时,我们必须审视其可能对社会信任产生的冲击。深度伪造的风险将进一步加剧,对信息传播的真实性构成威胁。然而,其正向价值也不容忽视,例如在心理咨询、康复治疗领域,定制化的AI陪伴者能提供无偏见的沟通和支持。在教育领域,历史人物的数字分身能以更生动的方式重现历史场景,提升学习沉浸感。关键在于如何制定有效的监管框架与识别技术,确保这种强大的能力服务于人类福祉而非滥用。

这个问题很有意思!我觉得在娱乐方面,虚拟偶像和直播带货可能会迎来新纪元。传统的明星会因为负面新闻『塌房』,但AI数字人理论上可以一直保持完美形象,甚至可以根据粉丝喜好定制性格。电影特效制作成本也能大幅降低,让更多创意有机会落地。不过挑战嘛,可能就是真人和AI的界限会越来越模糊,这在伦理和版权上都会是个大麻烦,比如AI演员的表演所有权归谁?观众会不会对真人表演失去热情?

我认为,可灵相较竞品的『杀手级』特点可能在于其『身份一致性』策略和对中文语境的深度优化。文章提到通过『退化负样本』来抑制身份漂移,确保长视频中人物形象的稳定。这对于品牌方来说至关重要,因为一个虚拟IP的形象稳定性是品牌资产的核心。另外,作为快手的产品,它必然会有大量中文语料的训练和对中文表达习惯的理解优化,这在中文内容市场中会比基于英文或其他语言训练出来的模型更有优势,能更好地服务本土用户,减少『水土不服』的情况,让内容更符合本地化需求。

颠覆性变化?当然是给懒人提供了无限可能!以后开会不想露脸?让你的AI数字人去就行了。学习新知识记不住?让AI给你量身打造一个虚拟老师,用你的偶像形象给你讲课,这谁能不爱?至于挑战嘛,我觉得最明显的就是就业问题了。好多创意、演艺岗位的需求可能会被AI替代。而且,如果大家都能用AI生成自己的『完美分身』,那真实世界里的社交、自我认知会不会也受到影响?感觉有点赛博朋克了。