PAT3D：让文生3D场景从“能看”走向“能模拟、能交互”

almosthuman2014 · 2026 年5 月 1 日 10:15

PAT3D把物理仿真引入文生3D，让生成场景不仅能看，还更稳定、可编辑、可交互。

原文标题：ICLR 2026｜CMU等团队让AI生成的3D场景真正「站得住」：PAT3D把文生3D从能看推进到能模拟、能交互

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651031188&idx=2&sn=5a3f712b296ed82c3bbae0895fa82bf7&

冷月清谈：

CMU、HKU 和 HKUST 团队提出 PAT3D，目标是解决文生3D场景“看着合理、但一进物理模拟就出问题”的老问题。以往方法更重视觉效果，容易出现物体悬空、穿插、支撑关系错误等情况，难以直接用于游戏、XR、动画和机器人仿真。

PAT3D 的核心流程分为三步：先根据文本生成参考图，并借助视觉语言模型抽取物体类别、材质和相对关系，为每个对象单独生成3D资产；再通过深度估计和“场景树”构建粗略3D布局，对物体间的重叠和沿重力方向的关系做初步修正；最后结合可微刚体仿真进行闭环优化，让场景在满足支撑、包含等语义关系的同时，达到物理稳定。

实验显示，PAT3D 在复杂提示词测试中相比 GraphDreamer、Blender-MCP、MIDI 等方法，物理合理性更强，继续模拟位移和穿插比例都做到 0，物理合理性评分达到 88.5。它的价值不只在论文演示效果，而在于生成结果可直接用于场景编辑、动画制作和机器人仿真。论文已被 ICLR 2026 接收，项目与代码也已公开，体现出“物理增强”可能成为文生3D走向实用化的重要方向。

怜星夜思：

1、如果文生3D以后都开始强调“物理正确”，你觉得这会成为行业标配，还是只适合游戏、机器人这类对模拟要求高的场景？
2、PAT3D里用了“场景树”去表达支撑、包含这类关系。你觉得这种结构化关系，未来会不会比单纯堆更大的生成模型更重要？
3、文章里提到 PAT3D 能直接服务动画制作和机器人仿真。你觉得离真正大规模落地，还差哪些关键环节？
4、如果以后这类“物理增强”的文生3D成熟了，你最先想到会改变哪个行业的工作方式？为什么？

原文内容

论文已被 ICLR 2026 接收，第一作者为 CMU 博士生林谷颖，师从 CMU 的李旻辰教授。研究团队中还包括 CMU 的 Jun-Yan Zhu 教授、Michael Liu、高睿晗、陈瀚可、陈律豪、卢贝嘉、HKU 的 Taku Komura 教授、黄可蒙，以及 HKUST 的刘缘教授。

现在的 3D AIGC 已经可以很快生成场景，但离真正落地还有一段距离。很多场景看起来还行，一进物理模拟就会暴露问题，比如物体悬空、互相穿插，甚至还没碰就散。这些问题让它们很难直接用于游戏、XR 或机器人等实际场景。

问题的根源在于，过去的大多数文生 3D 方法主要优化的是视觉效果：只要渲染出来看起来合理就可以。但这种做法忽略了一个关键点——场景是否在物理上成立。一旦进入模拟环境，物体之间的接触、支撑关系以及整体稳定性都会成为问题，而这些恰恰是实际应用中最关键的部分。

来自卡耐基梅隆大学（CMU）、香港大学（HKU）和香港科技大学（HKUST）的研究团队提出了 PAT3D（Physics-Augmented Text-to-3D Scene Generation），尝试解决这个问题。他们的目标很直接：让生成的 3D 场景不只是视觉上合理，而是在物理上也站得住，可以直接用于编辑、交互和仿真。

图 1：PAT3D 关注的不只是视觉效果，而是让场景在模拟中也能成立。

论文标题：PAT3D: Physics-Augmented Text-to-3D Scene Generation
论文地址：https://openreview.net/pdf?id=iIRxFkeCuY
论文作者：Guying Lin, Kemeng Huang, Michael Liu, Ruihan Gao, Hanke Chen, Lyuhao Chen, Beijia Lu, Taku Komura, Yuan Liu, Jun-Yan Zhu, Minchen Li
作者单位：卡耐基梅隆大学、香港大学、香港科技大学
项目主页： https://simulation-intelligence.github.io/PAT3D/
代码链接： https://github.com/Simulation-Intelligence/PAT3D

PAT3D 是怎么做的？

PAT3D 的思路可以概括成三步。

第一阶段是3D 物体与空间关系抽取。 系统先根据文本提示生成一张参考图，再借助视觉语言模型识别场景中的物体类别、材质和相对位置，并把图像分割成多个对象区域。随后，系统为每个对象分别生成 3D 资产，而不是把整个场景直接做成一个整体网格。这样做的关键意义在于：后续每个物体都能作为独立刚体参与接触、碰撞和支撑关系计算。

第二阶段是布局初始化。 PAT3D 会先利用单目深度估计，把 2D 参考图回投成粗略的 3D 布局，再根据视觉语言模型抽取出的物体依赖关系，构建一个层级化的「场景树」。这个「场景树」描述的不是普通语义标签，而是沿重力方向的物理依赖，例如「支撑」「包含」等。在此基础上，PAT3D 会对初始布局做两类修正：

一类是同层物体之间的水平去重叠，避免兄弟节点互相挤压；另一类是父子节点之间沿重力方向的垂直分离，例如让「杯子里的笔」先处在合理的容器范围内、让「桌上的书」先位于桌面的支撑区域之上。这样得到的初始化场景，不一定已经完全稳定，但至少是无穿插、适合进入物理模拟的。

第三阶段是布局优化。 PAT3D 引入了 libuipc 的可微刚体仿真，让物体在重力和接触力作用下朝静力平衡状态演化。这里更关键的一点是，它并不满足于「只要物理上站得住就行」。因为单靠物理仿真，很多场景虽然稳定，却可能偏离文本语义，比如本应放在桌上的物体滑落到地面，依然可能是一个物理上成立的终态。

为了解决这个问题，PAT3D 引入了基于物理模拟的闭环优化：它根据最终模拟状态是否满足「场景树」中的包含与支撑关系，定义语义损失，再把这个损失反向传回初始布局，持续调整初始位置。这样，最终得到的不是单纯「不会倒」的场景，而是「既稳定、又尽量保留文本语义」的场景。

图 2：PAT3D 将物体生成、关系理解、布局初始化和物理优化串联成一个完整流程。

下面的视频展示了一个具体示例的生成过程。

实验结果说明了什么？

从结果看，PAT3D 的优势并不只是「更稳定一点」，而是把场景生成从「能展示」推到了「能落地」。在包含 18 个复杂提示词的测试中，PAT3D 与 GraphDreamer、Blender-MCP、MIDI 等方法进行了比较。结果显示，PAT3D 在关键物理指标上非常突出：继续模拟位移为 0，物体穿插比例为 0，物理合理性评分高达 88.5。

图 3：PAT3D 与现有方法在场景质量和物理合理性上的定量对比。

更直观地看，在书本、杯子、餐具、积木、水果篮这些接触关系比较复杂的场景里，PAT3D 能避免物体悬空和模拟后坍塌，并且明显减少摆放错位。以积木堆叠为例，普通方法生成的布局往往要么不符合物理规律，要么一进入模拟就容易倒掉；而 PAT3D 会进一步调整初始摆放，使最终稳定下来的结果仍然尽量贴近文本描述。

图 4：与已有方法相比，PAT3D 在复杂接触场景里更容易得到物理合理的结果。

为什么这项工作值得关注？

更重要的是，PAT3D 的结果不是停留在论文图里的静态展示，而是可以直接拿去做后续任务。论文里展示了三个很有代表性的应用方向。

第一个是场景编辑。 当用户删除一个笔筒、抽走一本书，或在原有布局上再加一个物体时，场景不会立刻变成一团穿插或悬空的模型，而是能在模拟中重新达到平衡。这意味着未来的 3D 内容创作可以更像「搭积木」。

图 5：PAT3D 支持增删物体后的物理一致场景编辑。注：此处仿真为准静态。

第二个是动画制作。 PAT3D 生成的场景本身就满足基本的物理约束，因此不需要再花很多时间手动修正和调整初始布局，就可以直接用于后续动画制作。换句话说，它生成的不只是一个静态场景，而是一个已经为运动和模拟做好准备的场景。在传统的物理仿真动画制作中，场景建模上往往需要花费大量时间，PAT3D 无疑将大大提高其效率。

图 6：PAT3D 生成的场景可直接用于后续动画制作。

第三个是机器人仿真。 机器人通常需要靠模拟环境检验学习到的抓取、搬运和交互策略。如果场景本身存在漂浮、重叠或碰撞不合理等问题，那么训练出来的结果往往也不可靠。PAT3D 生成的场景可以直接导入模拟器，用来测试抓取是否成功、操作过程中物体会不会倾倒，从而为机器人训练和评估提供大量更可信的环境。

图 7：当生成的场景能够直接进入机器人模拟流程，文本到场景的价值就不再只是展示。左图展示了成功抓取的例子，右图展示了失败抓取的例子。

PAT3D 的意义，不只是让生成结果更好看，而是让 3D 生成更接近真正可用。随着生成系统开始同时理解和处理语义、结构与物理，它面向的也不再只是展示层面的效果，而是更完整的数字内容生产流程，以及机器人、仿真等更真实的应用场景。

同时，PAT3D 的成功也让我们看到将物理仿真用于 3D 生成任务的巨大潜力。更可贵的是，其源代码已在 Apache-2.0 许可下开源，这不仅降低了研究复现与二次开发的门槛，也为社区进一步验证、扩展和落地这一路线提供了坚实基础。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

TwilightPeacock415 · 2026 年5 月 1 日 19:26

【回答这个问题】说实话，离“真上生产线”还差不少。论文里演示通常比较干净，现实需求会更麻烦：长尾物体怎么处理？复杂软体怎么办？多人协同编辑会不会把场景搞崩？还有一点很实际——谁来为错误结果背锅。机器人仿真如果错了，可不是图歪了那么简单。

SparklingRiver075 · 2026 年5 月 1 日 22:49

【回答这个问题】我偏向认为会成为标配，但不是所有场景都开满。因为用户需求会升级：今天大家还满足于“能生成”，明天就会问“能不能直接改”“能不能直接用”。一旦工作流往下游延伸，物理正确就不再是加分项，而是省工时的关键。