从视觉和语言信息中学习数字人:ETHZ博士论文解读

ETHZ博士论文探讨如何从视觉和语言数据中学习和创建数字人,并提出多种创新方法解决捕捉和理解难题。

原文标题:【ETHZ博士论文】从视觉和语言中学习数字人

原文作者:数据派THU

冷月清谈:

这篇ETHZ博士论文探讨了如何从图像、视频和文本等数据中学习和创建数字人,并解决了捕捉和理解数字人面临的两大挑战:捕捉难度和理解缺乏。

论文中提出的方法涵盖了面部、身体、手部、头发和服装的捕捉,并借助大语言模型实现了对数字人的理解和推理。

具体研究成果包括:

1. 开发了一个框架,可以从单张图像中生成逼真且可动画化的3D面部;
2. 提出了PIXIE方法,可以从单张图像估算全身3D虚拟人,并具有逼真的面部细节;
3. 开发了SCARF和DELTA方法,用于从单目视频中捕捉分离的身体、服装、面部和头发,并采用混合表示方法,可以将捕捉到的服装迁移到任意体型;
4. 基于SCARF,提出了TECA方法,利用文本生成图像模型创建逼真且可编辑的3D虚拟人;
5. 开发了ChatPose,这是第一个用于理解和推理3D人体姿势的模型,它利用大语言模型,可以描述人类行为、生成3D姿势,并推理潜在的下一步动作。

这些方法的提出,有望推动数字人在各个领域的广泛应用。

怜星夜思:

1、论文中提到的利用大语言模型理解三维人体姿势,未来有哪些可能的应用场景?
2、混合表示方法在数字人建模中有哪些优势和局限性?
3、如何进一步提高数字人建模的真实感和表现力?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

本论文结合了计算机视觉、计算机图形学和机器学习的研究成果,开发了可扩展的数字人类捕捉和建模方法。


数字人类的研究在计算机视觉、计算机图形学和机器学习等研究领域中引起了广泛关注。这一日益增长的兴趣源于理解人类自我及数字人类在各种应用中的关键作用,包括增强现实/虚拟现实(AR/VR)中的虚拟存在、数字时尚、娱乐、机器人学和医疗健康等领域。然而,数字人类在跨学科应用中的广泛使用面临两大挑战:(1)捕捉的难度,因为现有方法依赖于复杂的系统,这些系统既耗时、劳动密集,又成本高昂;(2)理解的缺乏,即使在创建了数字人类之后,仍然存在对其三维表示的理解缺口,且将其与更广泛的世界知识整合的能力有限,从而限制了其有效利用。克服这些挑战对于释放数字人类在跨学科研究和实际应用中的潜力至关重要。
为了解决这些挑战,本论文结合了计算机视觉、计算机图形学和机器学习的研究成果,开发了可扩展的数字人类捕捉和建模方法。这些方法包括使用图像、视频和文本描述等易获取的数据捕捉面部、身体、手部、头发和服装。更重要的是,我们不仅仅局限于捕捉,而是将研究范式转向理解和推理,借助大语言模型(LLMs)。例如,我们开发了第一个基础模型,它不仅能够从单张图像中捕捉三维人体姿势,还能够通过整合世界知识推理一个人在三维空间中的潜在下一步动作。本论文统一了从视觉和语言数据中捕捉和理解数字人类的过程——正如人类通过观察和解读世界的视觉和语言信息来理解世界一样。
我们的研究首先开发了一个框架,用于从“野外”图像中捕捉详细的三维面部。该框架能够从单张图像中生成高度逼真且可动画化的三维面部,且无需配对的三维监督训练,在形状重建方面达到了最先进的精度。它有效地解耦了身份和表情细节,从而允许以不同表情动画化估计的面部。人类不仅仅是面部,我们接着开发了PIXIE,一种能够从单张图像估算具有逼真面部细节的可动画化全身三维虚拟人方法。通过引入注意力机制,PIXIE超越了之前的方法,精度更高,并能够创建表现力丰富、高质量的三维人类。
除了人类身体外,我们还提出了SCARFDELTA方法,用于从单目视频中捕捉分离的身体、服装、面部和头发,采用混合表示方法。由于服装和头发具有复杂的拓扑结构,使用像神经辐射场(NeRFs)这样的隐式表示方法来建模更为合适,而人类身体则更适合用网格(mesh)表示。SCARF通过将基于网格的人体与NeRFs服装和头发进行整合,结合了两者的优势。为了直接从单目视频中进行学习,我们引入了基于网格的体积渲染技术,使得可以直接从二维图像数据优化模型,而不需要三维监督。得益于解耦的建模方式,捕捉到的虚拟人服装可以迁移到任意体型上,这使其在虚拟试穿等应用中具有特别的价值。基于SCARF的混合表示,我们提出了TECA,它利用文本生成图像模型来创建逼真且可编辑的三维虚拟人。TECA比现有方法生成更为真实的虚拟人,并且允许进行编辑,得益于其组合设计。例如,用户可以输入“一个瘦女人,留着脏辫”这样的描述,生成带有纹理的三维头部网格和用于头发的NeRF模型。它还支持在虚拟人之间转移基于NeRF的发型、围巾和其他配件。
尽管这些方法使捕捉人类变得更加可行,但更广泛的应用仍然需要理解人类行为的背景。传统的姿势估计方法通常通过裁剪图像来孤立主体,这限制了它们对完整场景的理解和推理能力。为了解决这个问题,我们开发了ChatPose,这是第一个用于理解和推理三维人体姿势的模型。ChatPose利用多模态的大语言模型(LLM),通过微调一个投影层将嵌入解码为三维姿势参数,进一步通过SMPL人体模型解码为三维人体网格。通过同时在文本到三维姿势和图像到三维姿势数据上进行微调,ChatPose首次展示了大语言模型能够直接推理三维人体姿势。这一能力使得ChatPose能够描述人类行为,生成三维姿势,并推理潜在的下一步动作,将感知与推理相结合。
我们相信,本论文在扩大数字人类捕捉规模和推进三维人类理解方面的贡献,有潜力塑造未来以人为中心的研究,并推动其在各个领域的广泛应用。


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


针对“论文中提到的利用大语言模型理解三维人体姿势,未来有哪些可能的应用场景?”这个问题,我想到的是电影和动画制作,可以更方便地捕捉和生成逼真的人物动作,降低制作成本。

关于“如何进一步提高数字人建模的真实感和表现力?”,我觉得可以结合更先进的渲染技术和光照模型,让数字人看起来更自然,更像真人。

引用一下问题“论文中提到的利用大语言模型理解三维人体姿势,未来有哪些可能的应用场景?”,我觉得虚拟现实和增强现实游戏里肯定用得上啊,可以实现更自然的动作交互,让游戏体验更沉浸。

对于“如何进一步提高数字人建模的真实感和表现力?”这个问题,我认为可以从细节入手,比如皮肤的纹理、毛发的细节、眼神的光泽等等,这些细节的提升可以显著提高真实感。

在“如何进一步提高数字人建模的真实感和表现力?”这个问题上,我觉得表情的捕捉和模拟非常重要,更丰富的表情可以赋予数字人更多的情感和个性,提高表现力。可以考虑结合面部肌肉模拟和动作捕捉技术。

关于“混合表示方法在数字人建模中有哪些优势和局限性?”这个问题,我觉得优势在于可以结合不同表示方法的优点,比如用网格表示身体,用NeRF表示头发和衣服,从而更精细地建模;局限性可能是不同表示方法之间的兼容性和转换问题,以及计算复杂度可能会比较高。

就“混合表示方法在数字人建模中有哪些优势和局限性?”这个问题来说,优势就是可以根据不同部位的特点选择合适的表示方法,提高建模的效率和精度;局限性可能是需要更复杂的算法来处理不同表示方法之间的交互,以及数据存储和处理的成本可能会增加。

关于“论文中提到的利用大语言模型理解三维人体姿势,未来有哪些可能的应用场景?”这个问题,我觉得在医疗领域很有潜力,比如辅助康复训练,通过分析患者的姿势给出更精准的指导,或者用于运动分析,评估运动员的动作规范性。

对于“混合表示方法在数字人建模中有哪些优势和局限性?”这个问题,我想说优势就是可以实现更灵活的编辑和控制,比如可以单独修改衣服的样式或者头发的形状;局限性可能是需要更专业的工具和技术来支持混合表示方法的应用。