单视图图像高质量3D生成研究综述

香港科技大学博士论文研究如何从单视图图像生成高质量3D模型,探讨了提升几何质量、解除姿态限制、改进复杂场景建模以及高效表示等关键问题。

原文标题:【HKUST博士论文】单视图图像的高质量3D生成

原文作者:数据派THU

冷月清谈:

本文总结了香港科技大学一篇博士论文的研究成果,该论文探讨了如何从单视图图像生成高质量的3D模型。论文从四个角度展开研究:
1. 通过在生成器和判别器中注入3D感知能力,提升生成几何形状的质量。
2. 解除生成器对姿态先验的限制,实现更灵活的3D生成。
3. 利用3D先验知识改进复杂场景的3D建模。
4. 探讨高效的3D生成表示方法,例如高斯散点表示。

论文指出,高质量的3D生成需要考虑以下几个关键因素:生成高质量图像(包括多视图一致性)、构建高质量的几何基础、轻松利用易得数据、生成复杂场景以及高效的训练与推理。当前3D生成面临的挑战主要在于数据格式的差异、训练数据的获取难度以及高效生成器的构建。论文的工作重点在于解决这些挑战,并最终展望了3D生成领域的未来发展方向。

怜星夜思:

1、论文提到了NeRF与GAN的结合,这种三维感知的GAN具体是如何工作的?它相比传统的GAN有什么优势?
2、论文强调了从易得数据中学习的重要性,如何降低对姿态标注的依赖,让3D生成模型能够利用更广泛的数据集?
3、对于复杂场景的3D生成,论文提到了利用3D先验知识。有哪些3D先验知识可以利用?如何将这些先验知识融入到模型中?

原文内容

来源:专知

本文约2600字,建议阅读5分钟

本论文从四个角度探讨了三维生成领域。


生成模型近年来在二维和视频合成领域取得了显著进展。然而,二维和视频生成中仍然存在明显的不一致性,例如光照和几何相关的问题。引入三维建模有望增强二维和视频生成的连贯性与真实感,从而推动三维生成技术的进一步发展。

鉴于直接用于生成建模的大量三维数据收集存在挑战,从单视图图像学习三维分布成为一种可行的三维生成方法。这种方法得益于大量可用的非结构化、高质量且多样化的单视图图像数据。一种常见的从单视图图像生成三维内容的策略是采用生成对抗网络(GAN),并用三维渲染器替代生成器。

本论文从四个角度探讨了三维生成领域。首先,我们研究生成的几何形状,并提出通过将三维感知注入到生成器和判别器中来增强学习到的几何结构。其次,我们分析了三维生成模型训练中对姿态的要求,并解除生成器对姿态先验的限制,从而实现更灵活的三维生成模型。第三,在复杂场景合成的背景下,我们分析了现有方法的不足,并提出利用三维先验来促进从单视图场景图像进行三维建模。第四,我们还将讨论高效三维生成表示的引入,特别是高斯散点表示(Gaussian Splatting)。最后,我们展望了三维生成领域的未来发展方向。

深度学习的快速发展[21]显著推动了计算机视觉领域中的许多任务,例如视觉对象识别[22, 23]、目标检测[24, 25, 26]、图像渲染[27, 28, 1]等,并在诸多方面便利了我们的日常生活,如自动驾驶[29, 30]、生物研究[31]和智能创作[32, 33]。在所有技术类型中,生成建模[34, 35, 36]在数据分析和机器学习中发挥了重要作用。与直接对输入进行预测的判别模型不同,生成模型旨在再现数据分布,以便能够从中采样新的实例。为此目的,它们需要全面地表征数据。例如,检测模型可以忽略与任务无关的信息(如颜色)而不影响性能,但生成模型需要管理图像的每个细节(如物体排列以及每个物体的纹理)以实现令人满意的生成。从这一角度来看,学习生成模型通常更具挑战性,但同时也促进了一系列应用[37, 38, 39, 33]。

近年来,深度生成模型[35, 34, 36]在二维图像合成[33, 40, 41]方面取得了令人难以置信的成功。然而,在二维空间中学习生成模型已逐渐难以满足某些现实世界应用的需求,因为我们的物理世界实际上是三维的。以电影行业为例,我们期望设计三维数字资产,而不仅仅是生成二维图像,以带来身临其境的体验。现有的内容创作流程通常需要大量专业知识和人力投入,这既耗时又昂贵。许多开创性的尝试[42, 43, 44, 45, 2, 46]旨在研究如何自动生成三维数据,但这类研究仍处于早期阶段。

二维生成和三维生成之间的关键区别之一在于数据格式。具体而言,二维图像可以自然地表示为像素值的数组,便于神经网络[22, 23]处理。而常见的三维表示形式(如点云[47, 48]、网格[49, 50]和体素网格[51, 52])则难以直接被卷积神经网络处理。最近,隐式表示形式Neural Radiance Field(NeRF)[1]被提出用于通过学习从坐标到三维属性的映射来建模三维对象,成为与神经网络兼容的良好表示形式。最新研究[2, 6, 53, 3, 46, 54, 55, 45, 56, 4, 57]通过将NeRF与生成对抗网络(GAN)[34]结合,使三维生成成为可能,从而发展出一种三维感知的GAN。具体而言,它们用三维渲染器替代GAN中的生成器。这种替换使得在生成图像时可以显式地控制视点,从而得益于生成器的三维感知能力。

三维生成的难点还来源于训练数据的获取。在理想情况下,高质量三维资产的全面集合对于准确的生成建模至关重要。然而,使用设备大规模获取此类数据极其困难。一种引人注目的方法是探索从二维生成数据集中转移知识的潜力。一种可行的方法是利用二维单视图图像数据集学习三维表示。每个三维对象通常对应多个从不同视点拍摄的相似图像,具有类似的结构。例如,在数据集中可能仅有不超过两张同一人脸的图像。鉴于人脸的共同结构特性,从不同角度拍摄的多样化图像中提取通用人脸特征是可行的。这使得模型能够想象每个人脸的未见视图。通过这种方式,可以探索如何从二维单视图图像集合中学习三维生成。

构建高效三维生成器需考虑以下几个关键因素:

  1. 高质量图像生成能力:生成器必须能够生成高分辨率、高保真且真实感强的图像,包括光照、阴影和纹理的真实性。与二维生成相比,三维生成任务中的“高质量图像”还意味着多视图一致性,即不同视图图像的重叠区域应表示相同的物体并具有一致的纹理。

  2. 高质量的几何基础:生成的几何形状应合理且精确。这是一个挑战性任务,因为训练数据不仅是单视图的,而且是图像格式。因此,生成器需采用先进的几何建模技术,确保表面光滑、比例真实,并在场景中保持一致的几何结构。此外,它还应能生成复杂的结构,如精细的建筑结构。

  3. 轻松利用易得数据的能力:模型应能有效利用易收集的数据集,而不需要大量的预处理或专门的数据采集。例如,大多数三维生成方法[2, 6]要求对收集数据进行精确的姿态标注,这非常昂贵。去除这种数据要求是必要的,以使三维生成模型能够泛化到任意类别的数据。

  4. 复杂场景生成的能力:三维世界由不同的物体组成,生成器需不仅能生成单一物体,还能捕获场景中物体之间复杂的关系。由于场景中定义一个标准化空间非常困难,更可行的方法是借助附加的弱三维提示(如深度信息)来确保在只有单视图图像数据的情况下实现高质量场景生成。

  5. 高效的训练与推理:许多三维生成模型通常需要约5至7天在8个高端GPU上进行训练才能有效收敛,这导致了相当大的能源浪费。因此,提高模型效率至关重要。这需要仔细设计网络结构和三维表示形式,因为这些要素在优化计算资源和减少训练时间方面起着关键作用。

本文余下部分将讨论如何实现这些目标,具体组织如下:第二章介绍三维生成的基础知识,包括生成对抗网络的公式和三维生成的表示形式,同时讨论相关工作及三维生成任务中的挑战。第三章分析当前最流行的三维生成方法的问题,并探讨如何在三维生成模型中保证良好的几何基础。第四章研究大多数三维生成方法对姿态标注的依赖性问题,并提出一种新方法以摆脱此类先验需求,从而支持从易得数据中学习的概念。第五章指出复杂场景生成的问题,并提出一种新架构以促进真实场景生成。第六章聚焦于高效且可动画的三维生成。最后,第七章讨论了三维生成模型领域中未解决的问题及未来工作方向。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我觉得可以尝试一些弱监督学习的方法,比如利用一些容易获取的弱标签,例如图像的类别标签、物体的bounding box等等,来辅助模型学习姿态信息。这样可以减少对精确姿态标注的需求。

将这些先验知识融入到模型中,可以采用多种方式。比如,可以将先验知识作为正则项添加到损失函数中,或者将先验知识编码到模型的结构中,例如使用图神经网络来处理场景图。

还可以考虑结合一些几何推理的机制。比如,可以利用一些先验的几何知识,例如物体的对称性、透视关系等等,来约束模型的学习过程,从而减少对姿态信息的依赖。

可以这么理解,传统的GAN就像一个画家,它只会画你看到的那个角度的图;而NeRF-GAN则像一个雕塑家,它塑造的是一个完整的3D模型,你想从哪个角度看都可以。所以NeRF-GAN生成的图像在不同视角之间的一致性会更好,也更符合我们对真实世界的认知。

降低对姿态标注的依赖,一个方向是自监督学习。可以通过设计一些自监督任务,比如预测旋转角度、预测遮挡关系等等,让模型从数据中学习姿态信息,而不需要显式的标注。

可以利用的3D先验知识有很多,例如物体的形状、大小、位置关系、材质等等。比如,我们可以利用一些已有的3D模型库作为先验知识,或者利用一些场景图来描述场景中物体之间的关系。

我觉得还可以尝试将3D先验知识与深度学习模型结合起来。比如,可以先利用传统的3D建模方法构建一个粗略的场景模型,然后利用深度学习模型进行细化和优化。这样可以有效地利用先验知识,提高生成效果。

NeRF-GAN最大的优势就在于它的三维感知能力。它不像传统的GAN那样只是学习图像的像素分布,而是学习了三维场景的表示。这样一来,我们就可以从任意角度观察生成的物体,甚至可以在三维空间中对它进行操作,这是传统GAN做不到的。不过NeRF-GAN的训练和渲染速度通常比较慢,这也是它目前的一个主要缺点。

关于NeRF与GAN的结合,简单来说,就是用NeRF作为GAN的生成器。传统的GAN生成器直接输出图像,而NeRF-GAN的生成器输出的是一个三维场景的隐式表示,然后通过渲染器将这个三维场景渲染成图像。这样做的好处是可以显式地控制视点,生成多视角一致的图像,这是传统GAN难以做到的。