LN3Diff:引入 DiT 的原生 3D 通用生成框架,突破训练速度与泛化性瓶颈

原文标题:ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成

原文作者:机器之心

冷月清谈:

**关键内容摘录:** - 研究背景:原生 3D 生成模型存在可拓展性差、效率低、泛化性差等问题。 - 方法:提出 LN3Diff 框架,基于 3D-VAE 和 3D-DiT 实现了高效、高质量的 3D 生成。 - 3D-aware VAE:在大规模 3D 数据集上训练的 3D-aware VAE,支持多视图图像输入,增强 3D 一致性。 - DiT-based 3D Latent Diffusion Model:在 3D-VAE 压缩的隐空间上进行条件 diffusion 训练,支持图像和文本条件生成。 - 实验结果:在 ShapeNet 和 Objaverse 数据集上取得 SoTA 性能,实现快速、高质量的 3D 生成。 - 开源与实现:模型、代码和 Huggingface Demo 已开源,支持多卡训练和加速技巧。

怜星夜思:

1、LN3Diff 框架是如何克服原生 3D 生成模型的局限性的?
2、请解释一下 LN3Diff 框架中 3D-aware VAE 的作用。
3、LN3Diff 框架在生成 3D 资产方面有哪些优势?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


论文一作兰宇时为南洋理工大学(NTU)博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。


在 ECCV 2024 中,来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的研究者提出了一种原生 3D LDM 生成框架。具体来讲,他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等问题,提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural fields 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上进行了大规模训练,并在多个基准测试中取得了优异成绩,并拥有更快的推理速度。 


  • 论文项目主页: https://nirvanalan.github.io/projects/ln3diff/
  • 论文代码: https://github.com/NIRVANALAN/LN3Diff
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
  • 个人主页: https://nirvanalan.github.io/
  • 论文标题: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

研究背景

近年来,以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了很大的进展,并在新视角合成、3D 编辑和 3D 物体生成上取得了非常好的效果。然而,相较于统一图片 / 视频生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的问题,而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生成效果与多样性。这些限制极大地制约了 3D AIGC 的性能与自由度。 

为了解决上述问题,研究者提出将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,通过在 3D 隐空间直接进行 diffusion 采样来实现高效、高质量的 3D 资产生成。 

方法效果图

方法

方法概览图

尽管之前的工作也尝试使用 LDM 直接进行 3D 生成,但受制于可拓展性、生成效率与在大数据上的泛化能力,并没有成为主流的 3D 生成方案。

因此,研究者提出 Latent Neural fields 3D Diffusion (LN3Diff),一种适用于任意 Neural Fields 的通用 3D 生成框架,以实现高效、高质量、可控的 3D 生成。 

3D-aware VAE : 高效信息压缩 

首先,和图片 / 视频生成模型类似,3D 隐空间生成模型需要与之适配的 VAE 模型来实现高效的信息压缩。为了更好地兼容 3D 模态,相较于直接使用 SD VAE 模型来进行信息编码,本文选择在大规模 3D 数据上重新训练 3D-aware VAE 模型。

在编码器端,研究者选择 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入形式,以保留纹理建模能力并更好地兼容 2D 图像编码器的结构。
同时将多视图图像、对应的深度图以及 Plucker 相机信息作为模型输入,并在 token 空间进行 3D-aware attention 运算以实现更好地 3D 一致性。 

在解码器端,为了实现更优的信息压缩,研究者使用基于 3D-DiT 的 VAE 解码器。为了更好地支持 3D-aware 操作,在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来使用注意力运算在 token 空间提升 3D-aware 表达能力。随后,3D-DiT 解码器输出的 tokens 会逐步上采样为 tri-plane, 并渲染成多视图来进行目标函数计算: 


其中为多视图重建损失,为 VAE KL 约束,图片为物体表面几何平滑约束,用于提升 3D 材质真实性。在实验数据上,研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练,并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。 

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架 

在第二阶段,研究者在训练完成的 3D VAE space 上进行 conditional 的 diffusion 训练。得益于 3D-VAE 强大的压缩性能与隐空间的通用性,他们可以直接在压缩得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架进行训练。

在 ShapeNet 等较小规模数据集上,研究者使用 U-Net 模型结构进行 image-conditioned 训练;在较大规模的 Objaverse 数据集上,研究者使用 3D-aware DiT 模型进行 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表达能力,使用有限的计算资源 (4xA100 80GB) 便可以实现高质量的 3D diffusion 训练,并将模型尺寸 scale up 至 DiT-L/2。 


实验

数据集 ShapeNet 对比 

为了与目前 3D 生成方法进行公平对比,研究者同时选择了小规模数据集 ShapeNet 与大规模通用 3D 数据集 Objaverse 进行试验。

结果显示,在数据集 ShapeNet 的三个子类上,本文方法在各项指标均取得了 SoTA 的性能。相比于目前 unconditional 的生成方法,本文方法同时支持 text/image conditioned 生成。


以文本为条件的 Objaverse 3D 生成

在大规模 3D 数据集 Objaverse 上,本文基于 DiT 的 3D 生成模型支持从文本描述直接生成丰富、带有细节纹理的高质量 3D 资产,并支持 textured-mesh 的导出。得益于原生 3D diffusion 框架的支持,生成过程仅需数秒即可完成。 


在数值指标上,LN3Diff 同样优于目前最优的原生 text-conditioned 3D 生成方法。


以图像为条件的 Objaverse 3D 生成

考虑到 3D 内容创作更多采用图片作为参考,本文方法同样支持在给定单目图片条件下实现高质量 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方法在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现: 

模型输入 (single image condition): 


模型输出: 

图片


图片


图片


模型实现 / 开源 

目前项目所有模型和测试 / 训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度训练、flash-attention 以及 BF16 等加速技巧。 


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

LN3Diff 框架在大规模 Objaverse 数据集上进行训练,使其能够生成更广泛、更具真实感的 3D 对象,扩展了 3D AIGC 的可能性。

抱歉,原文中并没有提到 LN3Diff 框架是如何克服原生 3D 生成模型的局限性的。我无法从给定的上下文中找到你需要的信息。

相较于两阶段方法(多视图生成 + 重建),LN3Diff 框架在 3D 生成效果、多样性以及 3D 一致性上表现更加稳定,解决了传统方法中存在的优化时长、饱和度和质量问题。

相较于直接使用 SD VAE 模型,3D-aware VAE 专门针对 3D 模态进行优化,更好地兼容 2D 图像编码器的结构,并引入了 3D-DiT 解码器,通过 Self-plane 和 Cross-plane attention 提高 3D-aware 表达能力。

LN3Diff 在大规模 Objaverse 数据集上进行训练,进一步增强了模型的泛化能力,使它能够生成更加丰富的、带有细节纹理的 3D 资产。

该框架使用 3D-aware VAE 进行高效信息压缩,并基于 3D-DiT 模型构建通用生成框架,使原生 3D 生成模型能够处理任意神经场和大幅提升训练速度。

抱歉,原文中没有提到 LN3Diff 框架在生成 3D 资产方面的优势。我无法从给定的上下文中找到你需要的信息。

3D-aware VAE 在 LN3Diff 框架中起着高效信息压缩的作用。它以多视图图像(包括深度图和 Plucker 相机信息)作为输入,通过 3D-aware attention 运算,提升了 3D 一致性。

3D-aware VAE 压缩后的隐空间具有通用性,使后续的 conditional diffusion 训练能够直接在该空间上进行,无需额外的预处理或转换步骤。

LN3Diff 框架支持以文本或图像为条件生成高质量的 3D 资产。它可以在几秒钟内生成丰富、带有细节纹理的 3D 模型,并支持纹理网格导出。

抱歉,原文中没有提到 3D-aware VAE 在 LN3Diff 框架中的作用。我无法从给定的上下文中找到你需要的信息。

LN3Diff 框架将 LDM 引入 3D 生成,通过在 3D 隐空间直接进行 diffusion 采样,解决了可拓展性、生成效率和泛化能力不足的问题。