GaussianAnything：原生3D流匹配技术突破，实现高质量可控3D生成

almosthuman2014 · 2025 年3 月 11 日 11:51

南洋理工大学等机构提出GaussianAnything，基于Flow Matching技术，实现高质量可控3D生成，并在多项任务中超越现有原生3D生成方法。

原文标题：ICLR 2025 | 原生3D+流匹配，现有SOTA被GaussianAnything超越

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650959069&idx=4&sn=a58b3fc2b44c343a581f07b01ba6df19&

冷月清谈：

本文介绍了南洋理工大学等机构提出的GaussianAnything框架，该框架基于Flow Matching技术，旨在解决现有3D内容生成技术在输入格式、潜空间设计和输出表示上面临的挑战。GaussianAnything引入了一种交互式的点云结构化潜空间，实现了可扩展的、高质量的3D生成，并支持几何-纹理解耦生成与可控编辑能力。该方法在Objaverse数据集上进行了大规模训练，并在文本、图像、点云引导的3D生成任务中超越了现有的原生3D生成方法。GaussianAnything框架主要包含三个部分：3D VAE编码器，用于将3D物体的多视图渲染图压缩到点云结构的3D隐空间；级联流匹配模型，用于在3D隐空间中进行几何+纹理的生成，并支持多模态引导；3D VAE解码器，用于上采样生成的点云隐变量并解码为稠密的表面高斯。实验结果表明，GaussianAnything在图像和文本引导的3D生成任务中均取得了优于现有方法的表现。

怜星夜思：

1、GaussianAnything 提出的点云结构化隐空间对3D生成有哪些潜在优势或局限性？
2、GaussianAnything 中提到的Flow Matching技术，相比于GAN或者Diffusion Model，在3D生成任务中有什么特点？
3、文章提到GaussianAnything在Objaverse数据集上进行了训练，那么这个数据集的特点是什么？对3D生成模型的训练有什么影响？

原文内容

兰宇时，MMLab@NTU博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

尽管 3D 内容生成技术取得了显著进展，现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。

在 ICLR 2025 中，来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything，针对现有问题引入了一种交互式的点云结构化潜空间，实现了可扩展的、高质量的 3D 生成，并支持几何-纹理解耦生成与可控编辑能力。

该方法在 Objaverse 数据集上进行了大规模训练，并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。

目前，项目所有模型和测试/训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度 (AMP) 训练、flash-attention 以及 BF16 等加速技巧。

论文项目主页: https://nirvanalan.github.io/projects/GA/
论文代码: https://github.com/NIRVANALAN/GaussianAnything
Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
个人主页: https://nirvanalan.github.io/
论文标题：GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

研究背景

近年来，以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了快速的进展，在新视角合成、3D 物体生成和编辑上取得了令人满意的效果。在统一图片/视频生成的 LDM 框架的基础上，近期关于原生 (native) 3D diffusion model 的研究也展现了更优的泛化性，更快的生成速度与更好的可编辑性。

然而，一些关于原生 3D diffusion 模型的设计挑战仍然存在: (1) 3D VAE 输入格式，(2) 3D 隐空间结构设计，(3) 3D 输出表征选择。

为了解决上述问题，研究者提出基于 Flow Matching 的可控点云结构化隐空间 3D 生成模型 GaussianAnything，支持多模态可控的高效、高质量的 3D 资产生成。

方法

方法概览图 (3D VAE 部分)：

图片1080×314 194 KB

研究者提出的 3D-aware flow matching 模型主要包含以下三个部分:

利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。
在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。
使用 3D VAE Decoder 上采样生成的点云隐变量，并解码为稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

结构化的高效、高质量 3D 压缩

高效的 3D 物体编码

首先，和图片/视频 LDM 模型类似，3D 隐空间生成模型也同样需要与之适配的 3D VAE 模型，且该模型的效果决定了 3D 生成模型的上限。因此，研究者采取了以下设计来提升原生 3D VAE 的性能:

在 3D 编码器端，相较于目前普遍使用的基于稠密点云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者选择使用多视图 RGB-D (epth)-N (ormal) 渲染图来作为输入 3D 物体的等效表达，并联合 Plucker 相机编码一起共 15 维信息作为多视图编码器的输入。

为了更好地编码多视图输入，相较于直接使用图像/视频领域常见的 U-Net 模型，研究者使用基于 3D-attention 的 Transformer [3] 结构来处理多视图输入。相较于使用稠密点云作为输入的方法，本文的 3D VAE Encoder 更高效自然地拥有来自多种输入格式的丰富的 3D 信息，并能够同时压缩颜色与几何信息。

基于 3D 点云结构化隐空间表达

虽然上述过程已经将 3D 物体压缩为 multi-view latent , 本文中研究者认为该隐空间并不适合直接用于 3D diffusion 的训练。首先，的维度较高，在高分辨率下训练开销巨大。其次，multi-view latent 并非原生的 3D 表达，无法直观灵活地用于 3D 编辑任务.

为了解决上述缺陷，研究者提出在点云结构的 3D 隐空间表达进行 3D diffusion 的学习。具体地，他们使用 Cross Attention 操作将特征投影到从输入物体表面采样得到的稀疏的 3D 点云上。最终的点云结构化隐变量被用于 diffusion 生成模型的训练。

高质量 3D 高斯上采样/解码

在得到点云结构化隐变量后，研究者首先使用 3D Transformer 结构对其进一步解码，得到深层次特征。

在此基础上，他们通过 K 个上采样模块将低分辨率点云逐步上采样至高分辨率高斯点云，其中每一个模块都由 transformer 实现: 。该设计同时支持不同细节层次 (Level of Details) 的 3D 资产输出，提升了本文方法的实用性。

与此同时，该上采样设计能够有效保证较高的高斯利用率 (98% 以上)，而传统多视图方法 (LGM) 由于视角重叠问题仅有 50% 的高斯利用率。

VAE 模型训练

本文的 3D VAE 模型可端到端学习，并同时使用 2D Rendering loss 和几何 loss 共同监督:

其中为多视图重建损失，为 VAE KL 约束，约束物体表面几何，用于提升 3D 材质真实性。在实验数据上，研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练，并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。

Cascaded 3D Generation with Flow Matching

级联 3D 生成框架

在第二阶段，研究者在训练完成的 3D VAE space 上进行 Flow Matching 训练。在使用文本/单目图像作为输入条件时，他们均使用 Cross Attention 进行条件信息编码并送入 DiT 框架中进行训练。同时分为两个阶段单独学习几何 (稀疏点云) 和纹理 (点云结构的低维特征)。

具体而言，研究者首先训练一个稀疏点云上的 Flow Matching 模型：

在此基础上，研究者将点云输出作为条件信息进一步输出细节纹理特征：

该生成范式有效的支持了几何 - 纹理解耦的生成与编辑。

实验结果

Image-conditioned 3D Generation | 图生 3D

考虑到 3D 内容创作更多采用图片作为参考，本文方法同样支持在给定单目图像条件下实现高质量 3D 生成。相比于多视图生成 + 重建的两阶段方法，本文方案在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现:

数值结果：

可视化结果:

Text-conditioned 3D Generation | 文生 3D

在大规模 3D 数据集 Objaverse 上，研究者基于 Flow Matching 的 3D 生成模型支持从文本描述直接生成丰富，带有细节纹理的高质量 3D 资产，并支持 textured-mesh 的导出。生成过程仅需数秒即可完成。可视化对比结果如下:

在数值指标上，GaussianAnything 同样优于投稿时最优的原生 text-conditioned 3D 生成方法。

更多内容请参考原论文与项目主页。

Reference

[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.

[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.

[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022.

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Spark21u · 2025 年3 月 14 日 12:41

Objaverse 是一个大规模的3D模型数据集，它的特点是数据量大，多样性高。但同时也存在数据质量参差不齐的问题。使用Objaverse训练的模型，理论上泛化能力会更强，但同时也需要更多的数据清洗和预处理工作。

HarvestMoon921 · 2025 年3 月 15 日 07:37

作为一个外行，我来个暴论：GAN就像是相亲，diffusion就像是自由恋爱，flow matching就像是定向征婚，大家都有美好的未来！

咳咳，严肃点说，GAN生成速度快但是容易崩，diffusion效果好但是慢，flow matching就像是取了个中间值，既保证了质量，又兼顾了效率（前提是你的媒人靠谱——模型设计得好）。

Shadow53r · 2025 年3 月 16 日 04:18

这绝对是一个好问题！我个人觉得点云结构化隐空间最大的优势在于它的可控性。因为点云本身就是一种几何表示，所以在隐空间操作点云，更容易实现对3D形状的精确控制。但问题也很明显，点云的表达能力相对有限，对于复杂拓扑结构的物体可能难以完美表达，这就限制了它在某些领域的应用。

Haven14j · 2025 年3 月 16 日 14:05

Flow Matching 最大的特点是它的训练更稳定，不容易出现GAN的训练问题。而且理论上，Flow Matching可以更好地拟合复杂的数据分布，这对于3D生成这种高维数据来说至关重要。当然，这只是我个人的理解，具体效果还得看实际应用。

QuietKoala728 · 2025 年3 月 16 日 16:44

点云结构化隐空间感觉更像一个桥梁，链接了多视图信息和最终的3D高斯表达。优势在于它应该可以更好地解耦几何和纹理信息，方便后续编辑。局限性的话，感觉点云的稀疏性可能会限制细节的生成，需要更精巧的上采样策略。

Stellar82k · 2025 年3 月 18 日 03:42

谢邀，人在实验室刚下飞机。

点云结构化隐空间这种设计，我感觉核心还是trade-off。好处是计算效率高，而且对硬件要求没那么变态，多数炼丹炉都能跑起来；坏处也很明显，精度和细节上肯定比不上那些直接用高精度mesh或者voxel的方法。但架不住它快啊，AIGC时代效率就是生命！

NobleStag037 · 2025 年3 月 19 日 09:13

我理解Objaverse最大的特点是它的规模。海量数据对于训练大型3D生成模型至关重要，可以提高模型的鲁棒性和泛化能力。但是，数据集中可能存在噪声和偏差，这可能会影响模型的最终性能。感觉清洗数据会是一个巨大的挑战。

Summit72v · 2025 年3 月 19 日 13:27

Flow Matching 的优势在于其训练的稳定性和可控性。相比于GAN，它避免了对抗训练中常见的模式崩溃问题；相比于Diffusion Model, Flow Matching 似乎在生成速度上有一定优势（我感觉）。不过，我比较好奇的是，Flow Matching 在处理复杂纹理和光照效果时，表现如何？

RedFox202 · 2025 年3 月 19 日 18:35

Objaverse就像一个巨大的垃圾堆，里面啥都有，既有金子也有破烂。用它来训练模型，好处是能让模型见多识广，不容易翻车；坏处是模型可能会学到一些奇奇怪怪的姿势（artifact）。所以，用Objaverse训练，就像是在垃圾堆里淘金，考验的是你的眼力和耐心。