新突破!字节x清华DreamVVT:商业级视频换装,让虚拟试穿更真实连贯

字节清华发布DreamVVT,攻克复杂场景视频虚拟试穿难题,实现高保真时序稳定换装,开启电商泛娱乐新可能。

原文标题:AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA

原文作者:机器之心

冷月清谈:

字节跳动智能创作团队与清华大学联手,推出了创新的视频虚拟试穿模型 DreamVVT,旨在大幅降低服装视频广告成本,并攻克了卡点变装等传统拍摄难题。该模型基于强大的Diffusion Transformer (DiTs) 构建,其核心优势在于采用精巧的“两阶段”设计,有效解决了现有技术在复杂场景下,如人物360度旋转、镜头剧烈运镜、动态背景变化时,常出现的服装细节崩坏、纹理丢失和时序抖动等痛点。 DreamVVT成功打破了对稀缺“服装-视频”成对训练数据的依赖,能够充分利用海量的非成对数据、预训练模型的先验知识以及测试时的即时信息。模型的创新之处在于其分阶段框架,第一阶段通过智能关键帧采样策略,并结合微调的Seedream模型与LoRA模块,生成高质量的多张静态换装参考图,确保了服装细节的高度一致性。第二阶段则基于这些参考图,结合2D骨骼序列、裁剪后的服装不可知图像、Video LLM提取的文本描述等多模态信息,通过全自注意力机制深度融合,生成时序稳定且高保真的换装视频,并运用拉普拉斯金字塔融合技术无缝嵌入原始背景。 经过大量实验验证,DreamVVT在ViViD-S和自建的Wild-TryOnBench等多样化真实场景下,其服装细节保留度、物理真实感和时序一致性均 显著优于现有SOTA方法,展现了强大的泛化能力。该技术的诞生,标志着视频虚拟试穿正迈向成熟的商业应用,为电商和泛娱乐行业带来了前所未有的想象空间。

怜星夜思:

1、DreamVVT 这种AI视频换装技术,除了文章里提到的电商、广告,大家觉得它对我们普通消费者或者中小商家来说,还会带来哪些意想不到的改变或者新的商机呢?
2、DreamVVT 模型在技术上实现了SOTA,特别是在复杂场景下的保真度,这很棒! 但大家觉得在实际推广和商业落地时,除了技术本身,我们还需要关注哪些潜在的挑战或者风险呢?比如数据隐私、模型滥用,或者普通用户接受度之类的。
3、文章提到DreamVVT利用了非成对数据和预训练模型来训练,这很巧妙地解决了数据问题。未来这种‘少样本’或‘无样本’学习在AI虚拟试穿领域还有哪些可能性?或者大家觉得AI服装技术下一步的大方向会是啥?

原文内容


服装视频广告太烧钱?卡点变装太难拍? 字节跳动智能创作团队联合清华大学最新推出一款全能的视频换装模型 DreamVVT,为视频虚拟试穿领域带来了突破性进展。


该模型基于 Diffusion  Transformer(DiTs)构建,通过精细的两阶段设计,成功解决了现有技术在复杂场景下的痛点, 能够支持任意类型的衣服、处理大幅度的人物或者相机运动、复杂背景以及不同的风格的输入。






  • 论文链接:https://arxiv.org/abs/2508.02807

  • 代码链接:https://virtu-lab.github.io/


技术前沿:攻克复杂场景下的

视频虚拟试穿难题


视频虚拟试穿(Video Virtual Try-on, VVT),这项旨在将任意服装魔法般地 “穿” 在视频中人物身上的技术,正逐渐成为电商、广告及娱乐产业的焦点。然而,要实现理想效果,现有技术仍面临着严峻挑战。


主流的端到端方案高度依赖稀缺的 “服装 - 视频” 成对训练数据,同时难以充分利用强大预训练模型的先验知识。这导致在人物 360 度旋转、镜头剧烈运镜或背景动态变化的复杂场景下,生成的视频往往会遭遇 服装细节崩坏、纹理丢失与时序抖动 等一系列问题。


为攻克这一行业难题,字节跳动智能创作团队与清华大学携手,提出了全新的 DreamVVT 框架,刷新了该领域的 SOTA 记录。该框架基于强大的 Diffusion Transformer (DiT) 构建,并独创性地提出了一套分阶段生成方案,精准解决了现有技术在复杂场景下的核心痛点,能够生成高保真且时间连贯的虚拟试穿视频。


破局之道:精巧的两阶段生成框架


DreamVVT 的核心设计理念,在于其精巧的两阶段框架。这一设计巧妙地解耦了任务难度,使其既能充分利用海量的非成对数据进行学习,又能灵活地融合预训练模型的先验知识与测试阶段的即时信息。其核心贡献主要体现在以下三个方面:


1. 创新的分阶段框架:我们首次提出了基于 DiT 的分阶段方案,它打破了对成对数据的依赖,能够有效利用非成对数据、先进视觉模型的先验知识以及测试时的输入信息,显著提升了模型在复杂场景下的虚拟试穿性能。


2. 关键帧与大模型结合:我们将静态的关键帧试穿与视频语言模型(Video LLM)的推理能力相结合。这一机制为视频生成提供了兼具丰富外观细节与全局运动逻辑的综合指导,从而在根源上平衡了服装细节的保真度与视频整体的时间一致性


3. 卓越的性能验证:最后,大量的实验结果有力地证明,在多样化的真实场景下,DreamVT 在保留高保真服装细节和确保时序稳定性方面,均显著优于现有的所有方法。


技术解码:揭秘两阶段高清视频换装方案



我们的高清视频换装技术,其核心是一个精心设计的两阶段框架。第一阶段负责生成高质量的多张静态换装参考图,第二阶段则基于这些参考图,结合多模态信息,生成时序稳定的高保真换装视频。


第一阶段:生成高质量的换装关键帧


1. 智能关键帧采样


为了全面捕捉人物的动态,我们设计了一套智能采样策略。首先,设定一个标准的正面 A 字姿态作为 “锚点帧”。接着,通过计算视频中每一帧与锚点帧的骨骼运动相似度,并结合人物在画面中的面积比重进行加权,为每帧的 “独特性” 打分。最后,我们采用一种反向搜索算法,从高分帧中筛选出一组信息冗余度最低的关键帧,为后续生成提供多样化的姿态或者视角参考。


2. 多帧换装参考图生成


有了关键帧,我们利用一个在预训练模型 Seedream 上微调的 Diffusion Transformer 来生成换装后的参考图。我们巧妙地集成了 LoRA 模块,实现了参数高效的微调。模型会同时接收多个关键帧、服装图以及我们精心设计的 “一致性图像指令”。通过注意力机制中的 QKV 拼接,模型能有效聚合所有关键帧的信息,确保生成的换装参考图在细节上保持高度一致。此外,我们还引入 VLM 对服装进行详细的文本描述,并进行对齐,进一步强化了多帧间的外观一致性。


第二阶段:多模态引导的视频生成


第二阶段的核心任务是,基于第一阶段生成的换装参考图,结合多种信息,生成最终的换装视频。我们基于一个强大的图生视频(I2V)框架进行构建。


1. 多模态输入处理


模型同时接收多种模态的输入,各司其职:


  • 动作信息:为了精准还原身体动作,我们提取视频的 2D 骨骼序列,并通过一个带有时间注意力机制的 Pose Guider 将其转换为平滑的姿态特征。

  • 视觉信息:我们将裁剪后的衣服不可知图像(Agnostic Image)和遮罩送入 VAE 编码器,得到基础的视觉特征。

  • 文本信息:考虑到仅靠骨骼无法捕捉精细的服装动态,我们利用 Video LLM 提取详细的动作和视觉文本描述, 为模型提供不同维度和精细地指导。

  • 外观信息:第一阶段生成的换装关键帧则作为核心的外观参考,同样被编码为图像特征。


2. 模型结构与训练


在模型结构上,我们冻结了 Seaweed 模型的所有权重,仅在视频流和图像流中插入轻量化的 LoRA 适配器,实现了高效训练。所有模态的特征在输入网络后,通过一次 全自注意力(Full Self-Attention 操作进行深度融合,使模型能自适应地对齐不同信息。


3. 视频生成与融合


融合后的特征被送入 DiT 模块进行多轮去噪,最终由 VAE 解码器生成换装视频。我们还采用高效的拉普拉斯金字塔融合技术,将生成的视频无缝地嵌入原始背景中。在训练阶段,我们采用了多任务学习策略,随机切换训练任务,充分利用了不同模态的互补优势,最终实现了卓越的生成效果。


此外,针对长视频生成,团队使用前一段视频最后一帧的潜表示作为后一段的初始帧,避免了因反复编码解码导致的误差累积,显著延长了视频质量明显下降前的持续时间。


实验验证:全方位展现

通用场景下的 SOTA 性能


与 SOTA 方法的全面对比


在定性对比中,面对 360 度旋转等复杂野外场景,现有方法(如 CatV²TON、MagicTryOn)常出现细节崩坏和模糊,而 DreamVVT 则能稳定生成时空平滑且细节逼真的结果。定量数据更有力地印证了这一点。在 ViViD-S 数据集上,我们的 VFID 和 LPIPS 等关键指标达到 SOTA。在更具挑战性的自建基准 Wild-TryOnBench 上,DreamVVT 在服装细节保留度(GP) 、物理真实感(PR) 和 时序一致性(TC)  三项人工评估中全面领先,展现了强大的泛化能力。







消融实验


1. 关键帧数量:将关键帧从 1 帧增至 2 帧,能为模型提供更丰富的服装与运动信息,显著提升了细节保真度与物理真实感,有效避免了伪影。


2. LoRA 微调:采用 LoRA 进行轻量化微调,相比全参数训练,能更好地继承预训练模型的文本控制能力,在不牺牲其他性能的前提下,显著增强了生成视频的物理真实感,尤其能够实现和服装的交互。


这些实验充分证明,DreamVVT 通过其创新的设计,在复杂场景下的视频虚拟试穿任务中取得了突破性的进展。



总结


DreamVVT 的出现,为视频虚拟试穿技术开辟了新的道路。它在复杂场景下的出色表现,标志着视频虚拟试穿技术正迈向成熟的商业应用,为电商和泛娱乐行业开启了无限的想象空间。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


害,大家说的都挺严肃的,我来个轻松点的。我最关心的挑战是——会不会有人用这技术把自己的脸换到明星身上去演戏,然后发网上骗人,说自己才是电影主角?:laughing:
开个玩笑啦,但真的,像那种“AI换脸”技术,如果和这个视频换装结合起来,普通人搞个“虚拟分身”去参加各种线上活动,听起来有点酷,但如果信息安全做得不好,那就是个巨大的漏洞了。到时候,你怎么证明屏幕里的是你本人?线上交友岂不是更没法信任了?我觉得监管和立法,真的要跑在技术前面才行啊!

关于“DreamVVT模型在技术上实现了SOTA,特别是在复杂场景下的保真度,这很棒!但大家觉得在实际推广和商业落地时,除了技术本身,我们还需要关注哪些潜在的挑战或者风险呢?比如数据隐私、模型滥用,或者普通用户接受度之类的。”这个问题,我觉得最迫切的就是伦理和法律层面的问题。
首先是“深度伪造”的风险。这种技术如果被不法分子用于未经授权的人物形象替换,可能会造成名誉损害、诈骗等严重的社会问题,尤其是在面对名人的肖像权和公众人物的形象保护上,如何界定和规范使用非常关键。其次,数据隐私问题也绕不开。用户上传自己的视频,这些生物识别信息如何存储、使用、保护,都需要有明确的法规和标准。最后,还有普通用户的心理接受度。大家习惯了真实,对于这种高度逼真的虚拟内容,会不会有“虚假”的抵触情绪,也需要时间去培养和引导。

哎呀,楼上两位都说得好高大上!我来说点接地气的。反正现在AI都能画画、写文章了,我觉得以后AI服装技术的大方向就是——定制!但不是现在这种“我选颜色你来剪”的定制,而是“我想要一件能让我像超模一样走路、还带闪光效果、穿上就能变身酷炫摇滚女孩的裙子”,然后AI就能给你出设计图,甚至直接生成你穿着这条裙子走秀的视频!
少样本学习就意味着,即使你是个怪咖,需求再小众,AI也能给你满足了,因为它不用见过成千上万个“怪咖裙子”的样本,只要几个关键词,就能脑补出来了。简直是魔法!我都可以幻想一下,以后买衣服就是买个AI帮你设计的“概念图”,然后找个3D打印机给你打出来,是不是有点科幻?不过想想就觉得特别酷!

关于“文章提到DreamVVT利用了非成对数据和预训练模型来训练,这很巧妙地解决了数据问题。未来这种‘少样本’或‘无样本’学习在AI虚拟试穿领域还有哪些可能性?或者大家觉得AI服装技术下一步的大方向会是啥?”这个问题,我认为少样本/无样本学习在未来AI服装技术中会扮演越来越重要的角色。比如,我们可以想象,未来用户或许只需上传一张服装的图片,甚至通过文本描述,AI就能在视频中为任何人物生成该服装的虚拟试穿效果,甚至根据用户输入自动调整服装材质和风格,实现真正的“所想即所得”。
再进一步,结合AIGC(AI生成内容)的发展,AI服装技术的大方向可能不限于“试穿”,而是扩展到“设计”和“生产”。AI可以直接根据流行趋势、消费者偏好,甚至个人DNA数据,自动设计出独一无二的服装,并自动生成穿搭视频。届时,虚拟服装本身就可能成为一种商品,实现数字时尚和物理时尚的深度融合。这不仅是零售变革,更是服装产业链的重塑。

从技术发展轨迹来看,少样本学习在AI虚拟试穿领域的潜力是巨大的。它能让模型更快地适应新服装、新体型,大大提高模型的通用性和部署效率。我猜测,未来可能会出现基于“风格迁移”和“物理引擎”深度融合的技术。目前更多是图像级别的像素生成,但如果要实现更真实的服装褶皱、材质光泽、随身体摆动的物理动态,可能需要引入更复杂的物理模拟模型,让服装不仅“看起来”真实,而且“动起来”也真实。
此外,AI服装技术的大方向可能会是与AR/VR的深度融合,实现真正的实时互动虚拟试穿。用户可以在AR眼镜或VR头盔中,实时看到自己穿上新衣服的样子,甚至在虚拟空间中与朋友互动,进行虚拟时尚聚会。这种身临其境的体验,才是最终的趋势。

关于“DreamVVT这种AI视频换装技术,除了文章里提到的电商、广告,大家觉得它对我们普通消费者或者中小商家来说,还会带来哪些意想不到的改变或者新的商机呢?”这个问题,我个人觉得它能大大降低内容创作的门槛和成本。
对普通消费者来说,以后拍变装或时尚短视频就方便太多了,直接套模板就行,人人都是“时尚博主”!甚至可以尝试不同的服装风格,在买衣服前先虚拟“穿”一下,减少退换货的麻烦。
对中小商家而言,这简直是福音!他们不用花大价钱请模特、摄影师、租场地,甚至不用真的把所有商品都备齐,只要提供服装素材,就能做出高质量的视频展示。这变相降低了开店的风险,也让小众设计师品牌更容易被大众看到,百花齐放的日子指日可待啊!

哎呀,这问题问到点子上了!作为资深“剁手党”和“熬夜刷剧人”,我已经在想象了:以后追星的姐妹,可以把自己偶像的经典造型一键换到自己身上,省得买同款又穿不出效果的尴尬了!比如易烊千玺的西装,王一博的酷盖装,我都能“穿”上身了哈哈!
对商家嘛,除了省钱拍广告,是不是还能搞什么“虚拟衣橱”订阅服务,让你每天都有新衣服穿(虽然只是虚拟的)?或者搞个AI穿搭师,根据你的身材气质自动推荐并发试穿视频给你。光想想我都觉得钱包捂不住了!:rofl:

嗯,这个问题很实际。除了隐私和滥用,我从行业角度补充几点:
1. 版权问题:生成的虚拟形象或服装,其版权归谁所有?是服装设计师、技术提供方,还是视频内容创作者?这在目前的法律框架下是模糊的。
2. “美颜”陷阱:AI试穿可能会过度美化用户形象,导致消费者产生不切实际的期望,收到实物后失望,反而增加退货率。
3. 对传统行业冲击:模特行业、摄影行业可能会受到一定冲击,需要考虑如何引导这些从业者转型或升级。
4. 模型维护和更新成本:技术在不断迭代,保持SOTA需要持续投入研发,这对于商业化运营来说,是个不小的开支。同时,模型对不同人种、体型的泛化能力,以及对服装材质的真实模拟,还需要不断优化。
可见,技术再强,落地也远不止技术本身那么简单。

我认为这个问题很有意思。从技术赋能的角度看,DreamVVT这类技术可能催生一个全新的“虚拟内容生态圈”。对消费者,它意味着AR试衣间升级到实时视频试衣,在线购物的沉浸感会进一步提升,甚至可以在元宇宙里定制自己的虚拟形象服装。
对中小商家,它不仅是营销工具,更可能是设计工具。比如,设计师可以直接在视频中测试服装上身效果,快速迭代设计。此外,教育培训领域也可以利用它进行时尚教学、模特培训,模拟各种场景下的服装搭配,大大拓展了教学边界。这不仅仅是“换张皮”,而是改变了服装从设计、展示到消费的整个链条。