京东数字人技术突破:JoyStreamer实现长时长、自由态丝滑直播

京东推出 JoyStreamer 数字人模型,主打复杂指令控制、长时长稳定生成与实时互动直播。

原文标题:京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了

原文作者:机器之心

冷月清谈:

京东推出 JoyStreamer 与 JoyStreamer-Flash 两个数字人大模型,重点解决了数字人领域长期存在的三类问题:复杂文本指令控制不足、多模态信号冲突、长时长生成中的身份漂移。文章称,该系列模型可实现更自然的全身动作、动态镜头配合、背景变化以及音画同步,推动数字人从“站桩式播报”走向更自由的直播形态。

技术上,JoyStreamer 采用双教师 DMD 后训练框架,用“音频教师”保障口型与节奏,用“文本教师”增强复杂动作和文本可控性,在不增加新训练数据的前提下提升表现力。针对文本与音频控制互相干扰的问题,团队提出动态 CFG 调制策略,让文本优先决定前期动作框架,音频在后期强化唇形细节。为解决长视频中的身份漂移,又引入历史帧编码模块和“伪最后一帧”策略,使模型在 30 秒以上视频中也能保持人物一致性。

在性能方面,文章称 JoyStreamer 在文本遵从、唇形准确度、ID 保持和画质等维度优于部分主流模型;JoyStreamer-Flash 则进一步面向实时生成,通过模型蒸馏、4 步采样、kv-cache 和多 GPU 并行等方案实现 30FPS 流式生成。

应用层面,京东将其首先落地于数字人直播,面向商家提供自由态数字人、直播间复刻等能力,并强调低门槛和商业转化价值。文章还指出,京东依托真实电商场景和商家反馈,形成了技术迭代的数据闭环。

怜星夜思:

1、文章里一直强调“复杂指令控制”和“自由态数字人”,你觉得这会真正改变直播间体验,还是只是演示视频看着更高级?
2、如果数字人直播越来越像真人,中小商家最该关心的是成本下降,还是转化率、停留时长这些经营指标?
3、文章提到未来方向包括换装、跨主播互动、甚至“零幻觉”。你觉得数字人下一步最难啃的骨头会是哪一个?

原文内容

Image
编辑|泽南

刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。


然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪明的数字大脑,缺少一个「灵动」的「躯壳」。如果说「龙虾」OpenClaw 已经为 AI 智能体工作的范式打开了方向,那么解决 AI 怎么和人打交道的交互领域,技术还面临着挑战。


因涉及多个模态的转换,为聪明的 AI 打造一副高表现力的「躯壳」,比想象中还要困难得多。


直到最近,京东数字人的一系列新研究打破了这一僵局。


京东 JoyStreamer 和 JoyStreamer-Flash 两个数字人大模型,解决行业长期存在的文本指令控制力弱、多模态控制信号冲突、长时长生成能力不足等痛点问题,实现了长时长、自由态、实时互动的数字人生成效果,相关成果发表在了 arXiv 上,新一代数字人的性能全面超越了当前 SOTA 模型,将效果推向了新的高度。


  • 论文链接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423

  • 技术主页:https://joystreamer.github.io/


它具有超强的文本控制能力:


提示词:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.


提示词:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)


可以实现分钟级时长的数字人合成:



京东 JoyStreamer 系列数字人模型有打破僵局的意义,展现出了代差级别的优势,彻底告别了数字人「站桩式播报」:它不仅能精准理解「复杂指令」,丝滑做出全身复杂动作,还能完美配合动态镜头轨迹以及背景的无缝变化。更绝的是,哪怕是在这种大幅度、剧烈运动的过程中,它依然能保持唇形与输入音频的完美同步。


输入指令「拿起巧克力吃掉」京东数字人能够根据文本提示词,流畅地完成整套抓取和咀嚼动作:


提示词:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.


输入指令「放下手中的箱子」京东数字人不仅能平滑处理复杂的动作指令与背景流转,还能在超过 20 秒的视频生成中保持人物身份的稳定:


提示词:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.


京东数字人的三大技术创新


在生成式 AI 领域,数据是让模型学习和理解的原材料。但收集大量既有剧烈肢体运动、又有清晰语音播报的高质量视频数据,其成本是极其高昂的。面对静态播报数据的天然偏见,京东数字人团队转向了一条更为新颖的路径:双教师 DMD(分布匹配蒸馏)后训练


图 1 双教师 DMD 后训练框架图


图 2 数字人模型预训练框架图


研究人员给数字人模型请来两位「老师」,其中一位是「音频教师」,由数字人基础模型担任,专攻口型和节奏;另一位则是「文本教师」,引入了视频基础大模型。由于视频生成模型具备不错的文本到视频生成能力,能够完美理解复杂的动作指令,通过这种分离式监督、融合式学习的蒸馏机制,数字人模型在不增加任何新训练数据的前提下,直接继承了其文本可控性。


让数字人既要听从剧本做出复杂动作,又要严丝合缝地对口型,在过去是一个难以兼顾的任务。因为在模型的潜在空间里,文本信号和音频信号常常会相互打架 —— 文本要主导全身动作,音频要主导面部肌肉,两者一旦冲突,画面就会崩溃失真。


为了解决这个多模态控制冲突,团队创新性地提出了「动态 CFG 调制策略」


研究人员发现,扩散模型在生成视频时,全局的动作框架是在早期的高噪声阶段确定的,而口型这种细粒度的细节,是在后期的低噪声阶段雕琢出来的。所以数字人模型让两种信号「错峰出行」:在生成早期,模型优先听文本的指令,先把跑跳、转身等动作框架搭好。到了生成中后期,模型再把控制权优先交给音频,保证唇形同步。


这种巧妙的设计,让文本和音频两种控制模态各司其职,互不干扰。


接下来还有一个更加面向实际的挑战。数字人需要长时间直播,而对于 AI 的长视频生成而言,最大的挑战在于「身份漂移」—— 人物说着说着,脸或者衣服就变样了。


JoyStreamer 给出的解法是历史帧编码模块(FramePack)+ 伪最后一帧策略。在推理过程中,模型不断将用户的参考图像作为「伪最后一帧」注入模型,就像给模型定了一个永远不会偏离的锚点。这使得数字人模型能够支持 30 秒以上的长视频生成,全程保持身份稳定、动作流畅,彻底打破了传统数字人模型帧闪烁、时长受限的短板。


为验证技术领先性,京东数字人团队将 JoyStreamer 模型(Ours)与业界主流 SOTA 闭源模型进行了主观 GSB 评分对比。结果显示,JoyStreamer 在文本遵从、唇形准确度、ID 保持、视频画质等核心维度均表现显著优势,整体 GSB 评分分别达到 1.36(超 omnihuman-1.5)与 1.73(超 KlingAvatar2.0),技术实力得到权威验证。(GSB计算方式: GSB=(Good+Same)/(Bad+Same))


图 3 JoyStreamer 模型实验结果


与此同时,京东数字人团队还在数字人模型的推理速度优化上做出了大量创新性设计,推出了 JoyStreamer-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通过 CausVid 和 Self Forcing 等技术将双向模型蒸馏成自回归单向模型,并通过 4 步采样、kv-cache 和多 GPU 并行推理实现 30FPS 的生成速度。


研究团队还提出了渐进步数引导、运动条件注入、基于 cache 重置的无限 RoPE 等创新点,实现实时流式生成无限时长的高保真数字人视频,并在视觉质量、时序一致性与唇形同步等方面表现卓越。


场景与商业化

让中小商家用得起「数字人直播」


底层技术一旦捅破了天花板,广阔的应用想象力就彻底打开了。数字人直播作为核心商业场景率先迎来体验升级:无论是 7x24 小时连轴转的电商直播带货,还是需要极强表现力的电商短视频,整体内容形态与交互体验都将实现质的升级。


随着本次长时长、自由态、实时互动技术的突破,京东数字人的第一块试金石就是京东自己的核心业务 —— 数字人直播


从引爆全网的采销东哥数字人,到海尔、格力等一众总裁数字人在直播间挑起大梁,再到对微表情和肢体动作要求极高的 Vivi 明星数字人,京东数字人早已在直播场景中完成了多轮实战验证,不断打磨高表现力的直播交互能力。去年更是推出了JoyAI 零帧起手小程序,实现了万物皆可说,让每一个普通用户也能玩起来,真正把硬核的 AI 技术变成了全民皆可玩的生产力工具。


结合新技术,京东数字人 JoyStreamer 在行业内率先推出「自由态数字人」,针对家电家居、时尚服饰等五大行业推出精准适配的数字人,支持自然走动、灵活摆姿,镜头跟随、出画入画流畅,脸部遮挡也能保持高保真质感,实现了更加自然灵动的交互形态。


「自由态数字人」直播间


对于普通用户来说,新一代数字人主播可以在直播间走动,展示商品局部细节,甚至能进行多主播的复杂互动,这让直播更加有趣了;而对于电商来说,这种视觉表现力上的质变,直接拉长了用户的停留时长。


京东打造了低门槛的数字人平台。对于数量最多的中小商家而言,一听到「影视级」、「高表现力」这样的词汇,第一反应往往是用不起,这恰恰是 JoyStreamer 最大的商业杀手锏:京东的数字人直播能力目前免费开放,商家可以在自己的后台进行一键配置,自定义模型,或是一比一还原真人主播的声音。


基于此,JoyStreamer 推出的「数字人直播间复刻」能力,帮助商家最大化沉淀直播资产商家仅需上传一段真人直播视频素材,就可以快速生成一个形象、声线、神态、直播间布景上都与真人主播高度一致的「数字分身」,将单次成功直播转化为可长期复用的数字人直播资产。


新秀丽正是通过「直播间复刻」能力实现长期稳定开播,带来公域流量提升超 60%,直播间人均停留时长近 2 分钟,充分验证了该功能的商业价值。



在京东的平台上,数字人与真人的直播是同场 pk 的,流量竞争正在推动数字人技术持续提升。每一次技术的升级迭代,包括数字人、语音、多模态能力,都能获得几万商家的深度应用和反馈。


目前,京东数字人 JoyStreamer 已服务超 7 万家商家,规模行业领先,几乎覆盖京东全品类,数字人直播成为越来越多商家的标配选择。高表现力的数字人主播正从尝鲜工具转变为拉动 GMV 的核心增长引擎。


京东 AI 的「护城河」


环顾当下的全球 AI 竞争格局,不难发现:整个行业正陷入一场烧钱的「算力军备竞赛」。


面对快速显现的需求与前沿 AI 能力的探索,京东此刻却显得更加冷静。京东相关负责人表示,大模型的发展必须从参数至上的旧范式,彻底转向效率、成本与性能平衡的新范式。


这种克制与平衡的技术哲学,不仅体现在数字人身上,也贯穿于京东大模型的整体布局。以京东近期开源的通用基础大模型 JoyAI-LLM Flash 为例,这款模型的总参数量为 480 亿,在实际运行中通过动态稀疏路由技术只激活 3B 的参数,智能体任务的 token 消耗量只有竞品模型的 1/5,并获得了很好的效果。


在庞大的 AI 应用端,大模型的知识广度,必须配合极低的推理成本和极快的响应速度,才能完美契合产业界对于经济与效果的诉求。


作为一家新型实体企业,京东拥有零售、物流、健康、工业等丰富的真实业务场景,同时具备可观的数字技术和能力。目前,京东的 AI 技术已经深度融入自身的超级供应链,在超过 2000 个具体的业务场景中落地生根。


JoyStreamer 之所以能迅速迭代出高表现力的数字人直播能力,正是因为每天有数以万计的商家在直播间里提需求、做反馈。这种基于真实商业场景的数据飞轮,是很多技术公司难以比拟的。


最后,我们都好奇数字人的下一步是什么。京东的技术负责人表示,让数字人直播间内的主播学会换装、实现更丰富的跨主播互动,并最终实现零幻觉是他们努力的方向。目前在行业里,还没有任何一个团队解决了这些问题。


在京东的直播间里,这些富有表现力的数字躯壳还在快速成长,属于京东 AI 的这场产业突围战,才刚刚拉开序幕。


点击,抢先体验全新数字人技术



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


抛开技术层面,我觉得更重要的是理解不同模态信息之间的内在关联。图像提供的是“视觉框架”,文本提供的是“叙事逻辑”。“错峰出行”的关键在于找到这个框架和逻辑之间的最佳结合点。可以考虑引入注意力机制,让模型自动学习不同模态信息在不同阶段的重要性,或者用强化学习来训练模型,让其学会如何更好地“讲故事”。

换装功能感觉很实用。比如服装类的直播,数字人可以快速展示不同款式和颜色的服装,省去了真人换装的时间。跨主播互动就更厉害了,可以模拟多位主播同时在线,增强直播的趣味性和信息量,感觉像是在看一场永不落幕的带货综艺节目!

谢邀,人在实验室,刚下产线。双教师DMD后训练其实是一种知识蒸馏的变体,核心在于利用两个teacher model分别提供不同的监督信号,从而提升student model的性能。 优势很明显,避免了从头训练的资源消耗,同时能够结合不同模型的优点。如果让我设计第三个老师,我会考虑引入一个“风格迁移老师”,让数字人可以根据不同的直播主题和目标受众,切换不同的形象风格,比如可以是二次元萌妹,也可以是成熟御姐,甚至是卡通形象,满足不同用户的个性化需求。

动态CFG调制策略,本质上是一种attention机制的变体,通过动态调整不同模态的权重,从而实现更好的融合效果。 个人觉得这个思路在多模态情感识别上很有应用前景。比如,我们可以先让面部表情识别模型关注全局的情绪状态,再让语音语调识别模型关注细节的情感变化。这样可以更准确地判断用户的情绪,为后续的个性化推荐和服务提供更好的支持。

免费策略,短期来看绝对是三赢!京东赚吆喝,商家省银子,行业蹭热度。但长期来看,免费的东西往往不被珍惜。 我觉得京东可能会搞个“免费+付费”模式。基础功能免费用,高级定制、专属模型啥的,就得掏钱了。或者,直播带货效果好的商家,可以抽取一定的佣金。 毕竟,羊毛出在羊身上嘛!

教育领域肯定有搞头啊!想象一下,以后网课老师都是定制的数字人,根据学生的学习进度和风格,调整授课方式,简直是私人订制版教学!而且数字人老师可以24小时在线,随时解答学生的问题,提高学习效率。

这让我想起了“够用就好”的哲学。AI技术的发展,最终还是要服务于人类的需求。如果一个AI应用,效果提升了1%,但成本增加了10倍,那显然是不划算的。京东这种平衡的思路,可以确保AI技术真正惠及大众,而不是成为少数人的玩具。

双教师DMD后训练这个思路挺有意思,感觉在其他生成式AI领域也能用。相当于让模型同时学习两种不同模型的优点,取长补短。比如可以用于图像超分辨率,一个老师负责清晰度,一个老师负责色彩,感觉效果会更好。

我感觉这个思路有点像“专家系统”,每个“老师”都是一个领域的专家,然后把这些专家的知识整合起来。在医疗诊断领域,可能很有用。可以训练不同的模型来识别不同的疾病,然后用“多教师”模式综合判断,提高诊断的准确率。不过,这种方法也需要注意“专家”之间的意见冲突,如何有效地解决冲突也是一个挑战。

感觉“多教师”模式有点像“博采众长”。在传统的机器学习中,我们往往只用一个模型(也就是一个“老师”)来指导训练。但现实世界的问题往往很复杂,单一模型可能存在局限性。“多教师”模式则可以借鉴多个模型的优点,从而提升整体的性能。比如,在自动驾驶领域,我们可以用一个模型来负责感知,另一个模型来负责决策,最终结合两者的结果,提高驾驶的安全性和可靠性。

这还真不好说,技术发展的速度太快了。现在数字人直播可能还有很多局限性,但随着AI技术的进步,说不定哪天数字人就能完美模拟人类的情感和互动了。如果真是那样,数字人取代一部分真人直播也是有可能的。但我觉得最终的形态可能是数字人和真人结合,比如真人主播+数字人助手,或者根据不同的场景选择不同的直播方式。

我觉得“零幻觉”是数字人走向成熟的标志。现在的AI模型,或多或少都会有一些“幻觉”,也就是生成一些不真实、不合理的内容。在很多场景下,这些“幻觉”可能无关紧要,但在电商直播这种对准确性要求很高的场景下,就必须尽量避免。实现“零幻觉”需要对模型进行更精细的训练和控制,这代表着AI技术的更高水平。

“多教师”模式在知识图谱构建方面应该很有潜力。不同的知识来源往往有不同的侧重点和优势,比如百科全书侧重于知识的全面性,而专业文献侧重于知识的深度。我们可以训练不同的模型来学习不同来源的知识,然后用“多教师”模式将这些知识整合起来,构建一个更完整、更准确的知识图谱。这样可以更好地服务于智能问答、推荐系统等应用。