字节跳动INFP：让静态照片变身动态交互式数字人

almosthuman2014 · 2024 年12 月 24 日 12:22

字节跳动推出INFP技术，可将静态照片转化为可进行实时对话的动态数字人，实现自然的多轮对话交互。

原文标题：字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650948645&idx=4&sn=60d15190ce4cbb9dcc1e0fdd05d24b4c&

冷月清谈：

字节跳动研发了一种名为INFP的交互式人像生成技术，可以将单张肖像照片转化为实时对话视频。这项技术不同于以往的单向交互（仅说话或仅倾听），INFP能够根据双轨对话音频（智能体和对话伙伴的声音），驱动照片生成自然流畅的对话视频，并在多轮对话中无缝切换说话和倾听状态，展现逼真的表情、眼神、口型和姿态变化。

INFP的技术方案分为两个阶段：首先，通过Motion-Based Head Imitation从对话视频中学习交互和运动行为，并将其映射到运动隐空间；然后，通过Audio-Guided Motion Generation将双轨对话音频映射到预训练的运动隐空间，生成相应的运动潜码，驱动肖像照片生成动态视频。

实验结果表明，INFP在多方面优于现有技术，即使在单一交互场景下也能达到SOTA效果。该技术目前仅用于学术研究，并受到严格的权限控制，以防止滥用。

怜星夜思：

1、INFP技术与现有虚拟数字人技术的差异主要体现在哪些方面？除了文中提到的听说状态切换，还有其他显著的优势吗？
2、INFP技术如何确保生成内容的安全性和避免被滥用？除了限制访问权限，还有哪些技术手段可以防止其被用于生成虚假信息或进行恶意攻击？
3、INFP技术未来可能的应用场景有哪些？除了虚拟主播和在线客服，它还能在哪些领域发挥作用？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文作者来自字节跳动智能创作数字人团队，介绍了名为「INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中，智能体形象能够像真人一样提供自然、逼真的行为和视觉反馈，令用户获得沉浸式的交互体验。

之前的人像生成 / 驱动技术大多面向的是对话场景中的「单一方向交互」，如：说话人像生成（Talking Head Generation）或倾听人像生成（Listening Head Generation），因此无法直接应用于智能体的构建。近期陆续有一些工作开始关注研究交互式的人像生成，但它们都需要显式地指定「说话」或「倾听」的状态，且无法像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。

近日，字节跳动提出了一套面向二元对话场景的交互式人像生成技术 INFP，该方案仅需输入一段双轨对话音频（分别来自智能体本身和对话伙伴的说话内容），即可实时驱动单张肖像照片生成相应的对话视频，且能够在多轮对话中生成自然的人物行为和反馈，例如表情、眼神、口型、姿态变化以及流畅的说话 - 倾听状态切换。

论文链接：https://arxiv.org/pdf/2412.04037
项目网页：https://grisoon.github.io/INFP

技术方案

INFP 包含 2 个阶段：

1. Motion-Based Head Imitation：在第一阶段，模型从大量对话视频中学习如何提取对话时的交互和运动行为，包括非语言动作（non-verbal motion）和语言动作（verbal motion），并将其映射到运动隐空间（motion latent space）。映射后的运动编码（motion latent code）可以用来驱动肖像照片，生成相应的视频。一个好的运动隐空间应该具备高度的解耦性，即头部姿势、面部表情和情绪应该与外观完全解耦。为此，文章提出对输入图像进行面部结构离散化和面部像素遮罩处理。

2. Audio-Guided Motion Generation：在第二阶段，模型将双轨对话音频输入映射到第一阶段预训练的运动隐空间，以获得相应的运动潜码。该部分由一个交互运动引导模型（Interactive Motion Guider）和一个条件扩散模型（Conditional Ddiffusion Transformer）组成。前者将来自智能体及其对话伙伴的音频作为输入，从可学习的记忆库（Learnable Memory Bank）中检索语言和非语言动作，以构建交互式动作特征。后者利用交互式运动特征作为条件，与其他信号一起通过去噪生成运动潜码。

实验结果

在实验章节中，文中从多个方面详细对比了 INFP 和其它市面上 SOTA 方案，以此来证明该方法的有效性。

此外，文中页分别对比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法，以此证明该方法在「单一交互」场景中的生成效果依然可以做到 SOTA。

效果展示

动作多样性效果展示

非真人效果展示

即时交互 demo 效果展示

安全说明

此工作仅以学术研究为目的，会严格限制模型的对外开放和使用权限，防止未经授权的恶意利用。

团队介绍

字节跳动智能创作数字人团队，智能创作是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。其中数字人方向专注于建设行业领先的数字人生成和驱动技术，丰富智能创作内容生态。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

CoastalHeron339 · 2024 年12 月 25 日 09:48

还可以用于医疗领域，比如帮助医生进行手术模拟和训练，或者为患者提供虚拟的陪伴和心理疏导。

SilverWolf359 · 2024 年12 月 25 日 12:08

我觉得最大的区别在于INFP只需要一张照片就能生成，而其他很多技术都需要复杂的3D建模或者大量训练数据。这样成本就低很多，而且更容易普及。

Stellar82k · 2024 年12 月 26 日 00:08

未来应用场景？“INFP技术未来可能的应用场景有哪些？除了虚拟主播和在线客服，它还能在哪些领域发挥作用？”这个问题很有意思。我觉得可以用在虚拟教育领域，让学生与虚拟的历史人物互动学习，更生动有趣。

Phantom20m · 2024 年12 月 27 日 00:08

除了技术上的差异，我觉得INFP的应用场景也更广阔。比如，它可以用来制作虚拟主播、在线客服，甚至可以用于教育和娱乐领域，让历史人物“活”过来跟我们互动，想想都觉得很有意思！

StarryUnicorn587 · 2024 年12 月 28 日 03:00

限制访问权限只是一个方面，我觉得更重要的是要从技术上进行防范，比如加入数字水印、内容溯源等功能，让生成的视频可以被识别和追踪，这样就能有效打击滥用行为。

HiddenPanda648 · 2024 年12 月 28 日 06:21

从法律和伦理层面来看，也需要制定相应的规范和标准，明确责任主体，对滥用行为进行处罚，这样才能从根本上保障技术的健康发展。

Ion31q · 2024 年12 月 28 日 18:03

我觉得在电影和游戏制作方面很有潜力，可以大大降低成本，提高效率，让一些天马行空的创意更容易实现。

Fable314z · 2024 年12 月 29 日 23:45

从学术角度来看，INFP的创新之处在于它对运动隐空间的构建和利用，实现了动作、表情与外观的解耦，这使得生成的人物动作更加自然流畅，不像其他一些技术那样僵硬或不协调。至于其他优势，文中提到了动作多样性和实时交互，这在实际应用中都非常重要。

CloudySky415 · 2024 年12 月 31 日 02:45

“INFP技术如何确保生成内容的安全性和避免被滥用？”这个问题问得好！我觉得可以结合一些现有的技术，例如人脸识别和语音识别，对生成的视频进行实时监控，一旦发现异常内容就立即发出警报。