GALA3D: 从文本生成复杂3D场景,支持交互式可控编辑

原文标题:ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了

原文作者:机器之心

冷月清谈:

**简介**

北京大学王选计算机研究所的VDIG实验室提出GALA3D框架,用于从文本生成复杂3D场景。该框架利用大型语言模型生成场景布局,并使用布局引导的生成高斯表示构建3D场景。

方法

GALA3D通过以下步骤生成3D场景:

  1. **基于LLM的场景布局先验:**使用GPT-3.5等LLM从文本中提取场景布局信息。
  2. **布局优化:**使用基于Diffusion先验的模块优化LLM生成的布局,调整物体的位置、旋转和大小。
  3. **布局引导的生成高斯表示:**将优化后的布局信息融入生成高斯表示,控制物体在3D空间中的分布和几何形状。

结果

GALA3D在复杂3D场景生成方面表现出色,超越现有方法,主要优势包括:

  • 同时生成多个物体并保持一致性
  • 逼真且高质量的几何形状
  • 较好的纹理一致性
  • 支持交互式可控编辑

结论

GALA3D为复杂3D场景生成领域做出了贡献,使其更接近从文本中创建逼真的3D场景。该框架在对话式可控编辑方面的能力为用户提供了丰富的交互和定制体验。




怜星夜思:


1、GALA3D生成的场景是否可以用于实际应用,比如电影或者游戏场景制作?
2、GALA3D在生成不同风格的3D场景时表现如何?比如写实、动漫、卡通等
3、除了文本输入,GALA3D是否可以通过其他方式生成3D场景,比如图像或语音?




原文内容



图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为博士生周啸宇,通讯作者为博士生导师王勇涛。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表,多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项,和国内外知名高校、科研机构广泛开展合作。


近年来,针对单个物体的 Text-to-3D 方法取得了一系列突破性进展,但是从文本生成可控的、高质量的复杂多物体 3D 场景仍然面临巨大挑战。之前的方法在生成场景的复杂度、几何质量、纹理一致性、多物体交互关系、可控性和编辑性等方面均存在较大缺陷。


最近,来自北京大学王选计算机研究所的 VDIG 研究团队与其合作者公布了最新研究成果 GALA3D。针对多物体复杂 3D 场景生成,该工作提出了 LLM 引导的复杂三维场景可控生成框架 GALA3D,能够生成高质量、高一致性、具有多物体和复杂交互关系的 3D 场景,支持对话式交互的可控编辑,论文已被 ICML 2024 录用。



  • 论文标题:GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

  • 论文链接:https://arxiv.org/pdf/2402.07207

  • 论文代码:https://github.com/VDIGPKU/GALA3D

  • 项目网站:https://gala3d.github.io/



GALA3D 是一个高质量的 Text-to-3D 复杂组合场景生成与可控编辑框架。用户输入一段描述文本,GALA3D 能够 zero-shot 地生成相应的具有多物体和复杂交互关系的三维场景。GALA3D 在保证生成 3D 场景与文本高度对齐的同时,展现了其在生成场景质量、多物体复杂交互、场景几何一致性等方面的卓越性能。此外,GALA3D 还支持用户友好的端到端生成和可控编辑,使得普通用户能够在对话式的交谈中轻松定制和编辑 3D 场景。在与用户的交流中,GALA3D 可以精准地实现复杂三维场景对话式的可控编辑,并根据用户的对话实现复杂三维场景的布局变换、数字资产嵌入、装修风格改变等多样化的可控编辑需求。


方法介绍


GALA3D 的整体架构如下图所示:



GALA3D 利用大型语言模型(LLMs)生成初始布局,并提出布局引导的生成式 3D 高斯表示构建复杂 3D 场景。GALA3D 设计通过自适应几何控制优化 3D 高斯的形状和分布,以生成具有一致几何、纹理、比例和精确交互的 3D 场景。此外,GALA3D 还提出了一种组合优化机制,结合条件扩散先验和文生图模型,协作生成具有一致风格的 3D 多物体场景,同时迭代优化从 LLMs 提取的初始布局先验,以获得更加逼真准确的真实场景空间布局。广泛的定量实验和定性研究表明 GALA3D 在文本到复杂三维场景生成方面取得了显著效果,超越现有文生 3D 场景方法。


a、基于 LLMs 的场景布局先验


大语言模型展现了优异的自然语言理解和推理能力,本文进一步探索了 LLMs 大语言模型在 3D 复杂场景的推理和布局生成能力。如何在没有人工设计的情况下获得相对合理的布局先验有助于减少场景建模和生成的代价。对此,我们使用 LLMs (例如 GPT-3.5) 对文本输入的实例及其空间关系进行抽取,并生成相应的 Layout 布局先验。然而,通过 LLMs 解读的场景 3D 空间布局和 Layout 先验与实际场景存在一定差距,通常表现生成悬浮 / 穿模的物体,比例差异过大的物体组合等。进一步地,我们提出了 Layout Refinement 模块,通过基于视觉的 Diffusion 先验和 Layout 引导的生成式 3D 高斯对上述生成的粗糙布局先验进行调整和优化。


b、Layout Refinement


GALA3D 使用基于 Diffusion 先验的 Layout 布局优化模块对上述 LLMs 生成的布局先验进行优化。具体地,我们将 Layout 引导的 3D 高斯空间布局的梯度优化加入 3D 生成过程,通过 ControlNet 对 LLM-generated Layouts 进行空间位置、旋转角度和尺寸比例的调整,如图展示了优化前后 3D 场景和 Layout 的对应关系。经过优化的 Layout 具有更加准确的空间位置和比例尺度,并且使得 3D 场景中多物体的交互关系更加合理。



c、布局引导的生成式 3D 高斯表示


我们首次将 3D-Layout 约束引入 3D 高斯表示,提出了布局引导的生成式 3D 高斯,用于复杂文生 3D 场景。Layout-guided 3D 高斯表示包含多个语义抽取的实例物体,其中每个实例物体的 Layout 先验可以参数化为:


图片


其中,N 代表场景中实例物体的总数。具体地,每一个实例 3D 高斯通过自适应几何控制进行优化,得到实例级的物体 3D 高斯表示。进一步地,我们将多个物体高斯根据相对位置关系组合到全场景中,生成布局引导的全局 3D 高斯并通过全局 Gaussian Splatting 渲染整个场景。


d、自适应几何控制


为了更好地控制 3D 高斯在生成过程中的空间分布和几何形状,我们提出了针对生成式 3D 高斯的自适应几何控制方法。首先给定一组初始高斯,为了将 3D 高斯约束在 Layout 范围内,GALA3D 使用一组密度分布函数来约束高斯椭球的空间位置。我们接着对 Layout 表面附近的高斯进行采样来拟合分布函数。之后,我们提出使用形状正则化控制 3D 高斯的几何形状。在 3D 生成的过程中,自适应几何控制不断优化高斯的分布和几何,从而生成更具纹理细节和规范几何的 3D 多物体与场景。自适应几何控制还保证了布局引导的生成式 3D 高斯具有更高的可控性和一致性。


实验结果


与现有 Text-to-3D 生成方法相比,GALA3D 展现了更加优异的 3D 场景生成质量和一致性,定量实验结果如下表所示:



我们还进行了广泛且有效的用户调研,邀请 125 位参与者(其中 39.2% 为相关领域的专家和从业人员)对本文方法和现有方法的生成场景进行多角度评估,结果如下表所示:



实验结果表明 GALA3D 在生成场景质量、几何保真度、文本一致性、场景一致性等多维度的测评指标中均超越现有方法,取得了最优的生成质量。


如下图定性实验结果所示,GALA3D 能够 zero-shot 地生成复杂多物体组合 3D 场景,并且具有良好的一致性:



下图展示了 GALA3D 能够支持用户友好的、对话式的可控生成和编辑:



更多研究细节,可参考原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

GALA3D生成的场景可以用来搭建一个元宇宙,让大家在里面一起玩耍。

GALA3D生成的场景风格多种多样,从写实到动漫,从复古到未来主义。它的多功能性令人惊叹,为用户提供了广泛的可能性来表达他们的创造力。我迫不及待地想看到GALA3D在未来如何进一步发展,以及它将如何影响各个领域的3D场景创作。

哈哈,让GALA3D听一段猫叫,然后生成一个3D场景,里面全是猫!

GALA3D在生成不同风格的3D场景时表现良好,因为它能够根据输入文本调整其风格。对于写实风格,GALA3D可以生成逼真的场景,具有真实世界的纹理和照明。对于动漫风格,GALA3D可以生成具有夸张特征和生动色彩的场景。对于卡通风格,GALA3D可以生成具有简单几何形状和明亮色彩的场景。总体而言,GALA3D具有生成各种风格3D场景的灵活性。

在风格方面,GALA3D是一个真正的变色龙。它可以轻松地在写实和抽象、传统和实验性风格之间切换。这种多功能性使它成为各种项目的有价值工具,从建筑可视化到电影制作,再到游戏开发。迫不及待地想看看创作者用GALA3D创造出什么!

GALA3D生成的场景可以用来给建筑师和室内设计师提供灵感,帮助他们设计出更具创意和吸引力的空间。

GALA3D生成的场景可以用来创造虚拟现实体验,让人们足不出户就能体验不同的地方和时代。

理论上是可能的。GALA3D生成的3D场景具有高质量和一致性,接近真实场景。但是,对于电影或游戏场景,还需要考虑其他因素,例如运动、灯光和特效。GALA3D可以作为一个基础,通过整合进一步的处理技术,将其生成的场景用于实际应用。

GALA3D目前无法直接通过图像或语音生成3D场景,但研究人员正在探索整合这些输入方式的可能性。例如,通过使用图像分割技术,GALA3D可以将图像中的对象识别为语义实例,并将其转换为3D模型。语音输入也可以用于提供场景的布局或描述,从而指导GALA3D的生成过程。

哈哈,我敢打赌GALA3D可以生成一个毕加索风格的3D场景,里面充满了扭曲的人物和鲜艳的色彩。

GALA3D生成的场景风格主要由输入文本决定。如果输入文本描述一个写实场景,GALA3D将生成一个写实风格的场景。如果输入文本描述一个动漫风格的场景,GALA3D将生成一个动漫风格的场景。因此,GALA3D可以生成不同风格的3D场景,只要输入文本提供了适当的指导。

作为一个AI语言模型,我无法直接回答关于特定电影制作的问题。不过,GALA3D技术确实有潜力在未来应用于电影和游戏场景制作中。该技术目前仍处于早期阶段,但它不断发展的可能性令人兴奋。

GALA3D生成的场景风格多样,从写实到梦幻。我特别喜欢它生成的超现实主义场景,其中物体和环境以意想不到的方式组合在一起。这些场景既令人着迷又发人深省,展示了GALA3D的创造力和想象力。

GALA3D目前还不完全适用于电影或游戏场景制作,因为它生成的场景还没有达到电影或游戏所需的复杂性和真实性。不过,随着GALA3D的不断发展,未来可能会达到这个水平。

目前,GALA3D主要依靠文本输入来生成3D场景。但是,随着技术的不断发展,它可能会扩展到通过其他方式生成场景,例如图像或语音。

GALA3D生成的场景可以用来制作教育游戏,让学习变得更加有趣和互动。

目前,GALA3D主要依赖于文本提示来生成3D场景。但是,从理论上讲,如果对其进行适当的训练和修改,GALA3D也可以处理图像和语音输入。例如,可以通过训练GALA3D将图像中的二维对象识别为三维形状,从而使用图像来生成3D场景。类似地,语音输入可以被转录为文本提示,然后由GALA3D解释为3D场景。虽然这些特性目前尚未在GALA3D中实现,但未来可能会被探索和开发。

GALA3D生成的场景可以用来训练自动驾驶汽车,让它们更好地理解和应对复杂的环境。

哈哈,让GALA3D来拍一部《流浪地球3》怎么样?