MIDI:从单张图像端到端生成可交互的三维组合场景

VAST和北航开源MIDI模型,无需繁琐流程,仅凭单张图像即可端到端生成高质量三维组合场景,为虚拟现实等领域带来新工具。

原文标题:CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

原文作者:机器之心

冷月清谈:

VAST 和北航等机构的研究团队推出了名为 MIDI 的新模型,该模型能够从单张图像生成高质量、实例可分离的 3D 组合场景,为可交互世界生成奠定基础。MIDI 通过多实例扩散模型同时生成具有精确空间关系的多个 3D 实例,解决了传统方法中存在的实例分离、物理约束建模和场景级语义理解等挑战。该模型具有精确的空间布局建模、卓越的几何生成质量、高效的生成速度和广泛的适用性,在建筑设计、虚拟现实、影视特效和游戏开发等领域具有广阔的应用前景。未来,研究团队将致力于优化模型对复杂交互场景的适配能力和物体生成的精细度,以推动三维技术在实际应用中的普及。

怜星夜思:

1、MIDI 模型在处理包含复杂遮挡或光照变化的图像时,效果会受到哪些影响?是否存在缓解这些影响的策略?
2、MIDI 模型目前主要关注静态场景的生成,未来是否有可能扩展到动态场景的生成?如果可以,会面临哪些新的技术挑战?
3、MIDI 模型在生成三维场景时,如何保证各个物体之间的功能性和语义一致性?例如,如何确保桌子旁边放置的是椅子,而不是其他不相关的物体?

原文内容

图片


本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。


图片


在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。


然而,当技术演进到组合式场景生成维度时,单物体生成范式的局限性开始凸显:现有方法生成的 3D 资产如同散落的 "数字原子",难以自组织成具有合理空间关系的 "分子结构"。这导致几个核心挑战:① 实例分离困境(如何从单视图准确解耦交叠物体)② 物理约束建模(如何避免穿模的不合理交互)③ 场景级语义理解(如何保持物体功能与空间布局的一致性)。这些瓶颈严重制约着从 "数字原子" 到 "可交互世界" 的构建效率。


最近,来自北航、VAST 等机构的研究团队推出了全新的模型 —— MIDI,它能够从单张图像生成高几何质量、实例可分离的 3D 组合场景,在单视图 3D 场景生成领域取得了突破性进展,为可交互世界生成奠定基础。


图片


  • 论文链接:https://arxiv.org/abs/2412.03558
  • 项目主页:https://huanngzh.github.io/MIDI-Page/
  • 代码仓库:https://github.com/VAST-AI-Research/MIDI-3D
  • 在线 Demo:https://huggingface.co/spaces/VAST-AI/MIDI-3D


图片


技术突破:从单张图像到三维组合场景的关键创新


传统的组合式 3D 场景重建技术往往依赖于多阶段的逐个物体生成和场景优化,流程冗长且生成的场景往往几何质量低、空间布局不准确。为解决这些问题,MIDI (Multi-Instance Diffusion Model)创新性地利用了三维物体生成模型,将其扩展为多实例扩散模型,能够同时生成具有精确空间关系的多个 3D 实例,实现了高效高质量的 3D 场景生成:


  1. 单物体到多实例生成的跨越:通过同时去噪多个 3D 实例的潜在表示,并在去噪过程中引入多实例标记之间的交互,MIDI 将 3D 物体生成模型扩展至同时生成有交互建模的多实例,而后直接组合为 3D 场景。

  2. 多实例自注意力机制:通过将物体生成模型的自注意力扩展至多实例自注意力,MIDI 在生成过程中有效捕获实例间的空间关联和整体场景的连贯性,而无需逐场景的布局优化。

  3. 训练阶段的数据增强:通过使用有限的场景数据监督 3D 实例间的交互,同时结合物体数据进行增强训练,MIDI 有效建模场景布局的同时保持了预训练的泛化能力。


效果展示


基于单张图像,MIDI 可以生成高质量的组合式 3D 场景:


图片


图片


图片


图片


在线演示



卓越性能:在几何质量和空间布局等多个维度上表现突出


MIDI 的主要特点在于其精确的空间布局建模、卓越的几何生成质量、生成的高效性和广泛的适用性。实验结果显示,该模型在多个数据集上的表现超越现有方法,包括 3D 实例间的空间关系、3D 实例生成的几何质量、以及端到端的生成速度均取得了优异的表现。



图片


应用场景:3D 场景内容创作的新工具


MIDI 的出现为 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域,该技术展现了广阔的应用潜力。通过具备高准确度、高几何质量的 3D 场景生成能力,MIDI 能够满足复杂场景中对高质量内容的需求,为创作者带来更多可能性。


未来展望


尽管模型表现优异,MIDI 研发团队深知仍有许多值得提升和探索的方向。例如,进一步优化对复杂交互场景的适配能力、提升物体生成的精细度等,都是未来努力的重点。希望通过不断改进和完善,让这一研发思路不仅推动单视图生成组合 3D 场景技术的进步,也能为 3D 技术在实际应用中的广泛普及贡献力量。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这个问题问到了点子上!保证功能性和语义一致性是组合场景生成的难点。我认为可以从两个方面入手:一是引入知识图谱,让模型了解物体之间的关系;二是使用对比学习,让模型学习相似场景的表示。

我觉得这涉及到深度学习模型的通病了,对数据分布的依赖性太强。要解决遮挡问题,可以试试最近比较火的 transformer 架构,可能对上下文的理解更好。光照的话,感觉是个老大难问题,可能需要结合物理模型才能有更好的效果。

动态场景的生成确实很有前景。我个人认为最大的挑战在于数据。静态场景的数据已经很难获取了,动态场景的数据更是稀缺。另外,如何保证生成动画的真实性和连贯性也是一个问题。

把静态场景扩展到动态场景,这个想法太棒了!不过挑战也很大。首先,时间维度的信息如何建模?其次,动态物体的形变和运动轨迹如何预测?感觉需要引入一些序列模型或者物理引擎才能实现。

这个问题很关键!复杂遮挡和光照肯定会影响 MIDI 的表现。遮挡会丢失部分几何信息,光照变化可能导致模型对材质和形状的误判。策略上,可以考虑结合多视图信息或者使用更鲁棒的特征提取器来增强模型的感知能力。

从我个人的理解来看,遮挡和光照确实是影响三维重建的关键因素。对于遮挡,可能需要引入一些补全算法或者利用上下文信息进行推断。至于光照,或许可以尝试一些光照不变性的特征提取方法,或者在训练数据中加入更多样化的光照条件。

动态场景的关键在于对“时间”这个概念的理解和建模。可以考虑使用 recurrent neural networks (RNNs) 或者 transformers 来处理时间序列数据。另一个方向是学习物理规律,让模型能够预测物体的运动轨迹。

语义一致性本质上是一个分类问题,需要模型理解不同物体的类别和它们之间的关系。除了知识图谱,还可以尝试使用图神经网络 (GNN),对场景中的物体和关系进行建模,从而实现更高级的语义推理。

我倾向于从数据驱动的角度来解决这个问题。可以通过收集大量的场景数据,让模型自己学习物体之间的关联性。另外,可以引入一些 attention 机制,让模型更加关注重要的物体和关系。