OmniPart:像拼积木一样创作3D模型,部件级生成引领3D内容新时代

OmniPart框架:像拼乐高一样生成高质量可编辑3D部件,大幅提升创作效率。SIGGRAPH Asia 2025接收。

原文标题:SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

原文作者:机器之心

冷月清谈:

OmniPart框架是香港大学等机构提出的一种创新解决方案,旨在革新3D内容创作领域。针对现有AI模型生成3D对象缺乏部件结构、难以编辑和动画化的痛点,OmniPart引入“部件级别”生成理念,将复杂的任务解耦为“先规划,后生成”两个核心阶段。首先,模型通过基于2D掩码的自回归Transformer实现可控的结构规划,预测3D部件的空间布局,用户能灵活定义部件粒度。随后,在空间感知的部件生成阶段,系统并行优化所有部件的潜在编码,并结合新颖的体素丢弃机制,确保生成高品质、带纹理且能无缝拼接的独立3D部件。OmniPart在几何细节、语义准确性和结构一致性上远超Part123、PartGen等现有方法,且效率大幅提升,端到端生成时间缩短至1分钟以内。这使得用户可以轻松进行掩码控制生成、多粒度生成以及材质、几何编辑等下游应用,极大地推动了游戏开发、虚拟现实等领域的可解释、可编辑3D内容创作进程。该研究已被计算机图形学顶会SIGGRAPH Asia 2025接收。

怜星夜思:

1、文章提到用户可以通过提供简单的2D部件掩码来直观地控制部件的分解粒度,听起来很灵活。但实际操作中,对于复杂的3D模型,比如一个精密的机械装置,这些2D掩码需要多精确?普通用户操作起来会不会觉得门槛还是挺高的?有没有可能未来结合自然语言指令来更智能地控制?
2、OmniPart 框架在游戏、VR、数字孪生等领域有很大的潜力,尤其强调了可编辑、可动画化。但真正落地到这些产业中,比如要在游戏里实现角色换装或者场景资产快速迭代,除了生成部件,还需要考虑哪些技术问题?比如部件之间的物理交互、碰撞检测,或者在不同引擎间的兼容性?
3、OmniPart是“部件级3D物体”AIGC技术矩阵(分割-补全-生成)中的一环。从整体到局部,AI在3D内容创作上越来越精细化。未来,人工智能在3D创作领域,除了模型生成,还能在哪些方面给我们带来颠覆性的体验?比如交互方式、多模态融合设计,或者更深层次的创意辅助?

原文内容


本文的主要作者来自香港大学、VAST、哈尔滨工业大学及浙江大学。本文的第一作者为香港大学博士生杨运涵。本文的通讯作者为香港大学刘希慧教授与VAST 公司首席科学家曹炎培博士。


在3D内容创作领域,如何像玩乐高一样,自由生成、编辑和组合对象的各个部件,一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为 OmniPart 的全新框架,巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。


如今,从游戏、VR到数字孪生,高质量的3D世界构建变得至关重要 。尽管现有的AI模型能够生成令人惊叹的3D整体形状,但它们大多是“一体式”的模型,缺乏内在的部件结构。这种结构上的不透明性,极大地限制了模型在部件编辑、动画制作、材质分配等关键应用中的价值 。


为了破解这一难题,研究者们提出了 OmniPart,一个创新的“部件级别”3D生成框架。它的核心思想是将复杂的生成任务解耦为两个协同工作的阶段:“先规划,后生成”,在保证部件之间高度独立(语义解耦)的同时,也确保它们能完美地组合成一个整体。



  • 论文题目:

    OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

  • 项目主页:

    https://omnipart.github.io/

  • 代码下载:

    https://github.com/HKU-MMLab/OmniPart

  • Huggingface demo:

     https://huggingface.co/spaces/omnipart/OmniPart


效果展示



OmniPart 以简单的2D图像(如图中画框所示)和掩码为输入,首先通过自回归模型规划出三维部件结构,然后同步生成所有高质量、带纹理的独立部件(如透明展柜中所示)。这些部件能够无缝地融合成一个结构协调的完整对象,并提供了显式的部件控制能力,从而极大地增强了后续的编辑、定制化和动画制作效果。


方法介绍:两阶段“规划-生成”策略


OmniPart 的流程优雅而高效,它将复杂的部件生成任务分解为两个核心模块:可控的结构规划(Controllable Structure Planning)和空间感知的部件生成(Spatially-Conditioned Part Synthesis)。



第一阶段:基于2D掩码的结构规划


首先,模型需要规划出3D对象的部件布局 。OmniPart 采用了一个自回归Transformer模型,它会根据输入的2D图像,预测出一系列3D包围盒(Bounding Boxes),每一个包围盒都代表一个部件的空间位置和大小。


这里最巧妙的创新在于,用户可以通过提供简单、灵活的2D部件掩码(Part Masks)来直观地控制部件的分解粒度。这些掩码无需与3D部件一一对应,也无需语义标签,大大降低了控制的难度。例如,用户可以决定机器人的手臂和手掌是一个部件还是两个独立的部件。


为了确保生成的包围盒能完整地覆盖对应部件,团队还引入了一种新颖的“部件覆盖损失”(Part Coverage Loss),鼓励模型生成稍大一些的包围盒,避免部件信息在后续阶段丢失。


第二阶段:空间感知的部件生成



有了部件的“空间蓝图”(包围盒)后,第二阶段的任务就是生成所有高质量的3D部件,并确保它们能无缝拼接。


该模块基于一个强大的预训练3D整体生成器(TRELLIS)进行高效微调。它将所有部件的潜在编码(latent codes)进行并行联合优化,而不是孤立地生成每个部件。这种全局与局部信息结合的去噪过程,确保了最终部件之间的高度一致性。


此外,为了解决部件边界处体素重叠和噪声问题,OmniPart 提出了一种新颖的“体素丢弃机制”。该机制能精确判断每个体素是否真正属于其分配的部件,从而生成清晰的部件接口,让组合后的整体更加完美。


实验效果:质量与效率全面领先


  1. 生成质量对比


如下图所示,与 Part123、PartGen 等现有方法相比,OmniPart 生成的3D部件在几何细节、语义准确性和结构一致性上都表现出明显优势。其他方法或只能生成表面分割,或几何质量较差,而 OmniPart 则能生成结构完整、细节丰富且能完美组合的独立部件。



  1. 生成效率


值得一提的是,OmniPart 的生成效率也实现了大幅提升。相较于需要复杂多视图重建流程的 Part123(约15分钟)和 PartGen(约5分钟),OmniPart 的统一框架能够在不到1分钟(约0.75分钟)的时间内完成从单张图像到所有3D部件的端到端生成 。


方法

Part123

PartGen

OmniPart (Ours)

时间(分钟)

~15

~5

~0.75


  1. Huggingface demo 展示



丰富的下游应用


得益于其出色的部件可控性,OmniPart 自然地支持一系列激动人心的下游应用:



  • 掩码控制生成 (Mask-Controlled Generation):用户可通过编辑2D掩码,精确指导3D部件的结构生成。


  • 多粒度生成 (Multi-Granularity Generation):通过调整掩码的精细程度,可以生成不同细节层次的部件组合。


  • 材质编辑 (Material Editing):可以对特定部件(如企鹅的帽子、衣服)进行独立的材质或纹理修改。


  • 几何处理 (Geometry Processing):生成的高质量部件有利于后续的网格重构(remeshing)等几何处理,不会在部件连接处产生伪影。


总结


OmniPart 框架通过其创新的“规划-生成”两阶段流程,并引入灵活的2D掩码作为引导,成功地实现了高质量、可控的部件级3D内容生成。它不仅在生成质量和效率上树立了新的标杆,其强大的可编辑性和应用潜力也为游戏开发、动画制作和虚拟现实等领域铺平了道路,推动了可解释、可编辑3D内容的创作边界。


值得一提的是,该团队近期在3D部件领域已经积累了多篇高质量的研究成果,形成了系统性的探索。其中包括专注3D部件分割的工作SAMPart3D(https://yhyang-myron.github.io/SAMPart3D-website/),该研究旨在实现对任意3D物体进行精细化的部件分割。另一项相关研究HoloPart(https://vast-ai-research.github.io/HoloPart/) 则致力于解决从不完整的表面部件信息(Amodal Segmentation)中生成完整的3D部件几何。从部件的分割 (SAMPart3D)补全 (HoloPart) 到如今的生成 (OmniPart),这些工作共同构建了一个围绕“部件级3D物体”的AIGC技术矩阵。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我说句大白话,未来AI不光能生成3D模型,它还能帮我们把家里的家具重新布局,虚拟试穿衣服,甚至直接用AR眼镜扫描一下房间,就能自动生成一个符合我们喜好和预算的装修方案。更科幻一点,说不定哪天我们想定制一个专属的周边手办,只需要描绘一下它的形象、材质,AI就能直接生成3D模型并指令3D打印机完成。3D创作的门槛被拉平了,每个人都能成为创作者!

我觉得吧,这事儿就跟盖房子一样,OmniPart帮我们把砖头瓦块都造好了,而且质量还特好!但怎么把这些砖瓦变成一个能住人的房子,那还得建筑师(游戏开发者)来动脑子。不过未来肯定会越来越智能,AI不止生成部件,还能帮我们自动搭骨架、自动绑定、自动设置物理属性,甚至还能模拟环境光照下的材质效果。到时候,我们估计只要告诉AI一个场景需求,它就能给你直接输出一个能跑的Demo!想想都激动!

哈哈哈,这问题问到点子上了。虽然说2D掩码听起来很酷,但你要是真让一个美术小白去画一个机械臂的精确掩码,估计得画到吐血。我觉得目前的阶段,它可能更适合有一定专业基础的用户或者配合一些更智能的辅助工具来用。未来嘛,肯定得是说句话就能生成,或者随便圈一下AI就能懂。不然,这“像拼积木”的精髓就变成“像画素描”了,哈哈。

的确,将高质量的3D部件整合入实际应用,其复杂性远超模型生成本身。除了文中提及的物理交互和引擎兼容性,我们还需要重点关注部件的装配约束(Assembly Constraints)和运动学(Kinematics)建模,确保组合后的物体在运动时符合预期。此外,材质PBR(Physically Based Rendering)流程的自动化匹配和优化,以及大规模部件库的管理与检索策略,都是实现工业级应用的关键技术挑战。解决这些问题,需要跨学科的协作与持续的研发投入。

说到落地,那可真是个大坑!生成高质量部件是一回事,但放到游戏里,你得考虑它的多边形数量(面数),有没有骨骼绑定方便动画,材质是不是PBR的,能不能被引擎正确渲染。最麻烦的就是碰撞啊、交互啊,比如你生成一个带门的房子,门得能开能关,还得跟墙体有物理碰撞,这就要求部件之间有更智能的关联数据。现在肯定还是需要专业人员后期介入调优,AI离’一键出场景’还有不短的路要走。

OmniPart的突破,标志着AIGC从宏观的整体感知向微观的结构理解迈进。未来,AI在3D创作的核心价值将不仅仅停留在‘生成’层面,更会深入到‘协同创作’与‘智能优化’。这包括:通过强化学习提供实时的设计反馈;基于用户意图进行多模态融合(如语音、手势、文本)的直观交互;甚至在创意枯竭时,能为艺术家提供前瞻性的、超越人类想象的元素组合与风格探索,使得AIGC从工具升级为真正的灵感伙伴。本质上,AI将成为创作者的‘第二大脑’。

问题提出得非常关键。尽管2D掩码相较于直接在3D空间中操作已大幅降低门槛,但对于高精度或非规则部件的界定,其绘制精度和语义一致性仍是挑战。学术界正在积极探索结合语义分割模型进行自动化掩码生成,甚至利用图神经网络(GNN)理解部件拓扑关系以减少手工干预。长远来看,多模态输入,特别是自然语言结合少量视觉辅助,将是更理想的交互范式,它能让用户通过“给机器人添加一个带纹理的机械臂”这样直观的指令,而非像素级的描绘,来完成复杂创作。

哎呀,这不就跟PS里抠图一个道理嘛!抠个完美的图,那也是技术活儿!我觉得以后肯定会发展到,你心里想着“叮,给我来个赛博朋克风的机械臂”,AI就能直接给你甩出来仨模型,还带材质、带动画的。再不济,也得识别一下你随手画的线条,然后自动帮你生成高精度的掩码。不然我这手残党,想玩乐高都得先去报个美术班,那可真是太为难人了!