Craftsman3D&Dora：开源三维生成框架革新三维资产生成与编辑

almosthuman2014 · 2025 年3 月 24 日 08:43

香港科技大学开源Craftsman3D&Dora三维生成框架，Craftsman3D融合原生3D大模型与实时几何优化，Dora提升3D-VAE重建质量与压缩率，助力三维资产高效生成与编辑。

原文标题：CVPR 2025满分论文：开源三维生成框架Craftsman3D&Dora革新三维资产生成与编辑

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650961380&idx=1&sn=cfb4def1b0f014cf90d8dafaa44988cc&

冷月清谈：

香港科技大学谭平教授团队在 CVPR 2025 发表了两项三维生成技术框架：Craftman3D 和 Dora，并开源了全部核心代码。Craftman3D 得到了多家知名企业的认可，通过融合原生 3D 大模型和实时几何细节优化，快速生成高质量三维模型。Dora 则通过创新性的显著边缘采样算法与双交叉注意力机制相结合，提升了三维变分自编码器（3D-VAE）的重建质量与压缩性能。Craftman3D 借鉴传统建模流程，分两个阶段进行：首先使用原生三维大模型生成初始模型，然后通过实时可交互几何细化操作，在短时间内生成具备高质量几何细节的三维模型。Dora 创新性地提出了 Dora-VAE，通过显著边缘采样（SES）算法，能够基于几何显著性实现自适应点采样，优先处理几何复杂区域，有效改善了对精细几何特征的保留情况，提升了变分自编码器的重建精度和扩散模型的生成质量。Craftman3D 和 Dora 旨在降低三维内容创建的门槛，让更广泛的用户群体能够高效地构建三维数字内容，相关技术已融入光影焕像的三维生成平台及产品。

怜星夜思：

1、Craftsman3D 方案中，几何细化阶段使用法向图超分方案实现高质量法向估计，这个步骤是如何提升最终3D模型质量的？有没有可能出现法向估计不准确，反而降低模型质量的情况？
2、Dora 模型中提到的“显著边缘采样（SES）算法”是如何平衡几何细节的保留和整体模型结构的？除了二面角，还有没有其他可以用来判断“显著性”的指标？
3、文章中提到Craftsman3D已被Roblox等知名企业引用，这意味着什么？对于三维内容创作的未来发展，这种开源框架的意义是什么？

原文内容

机器之心发布

机器之心编辑部

香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架，核心代码全部开源，助力三维生成技术的开放与进步。其中 Craftman3D 获得三个评委一致满分，并被全球多家知名企业如全球最大的多人在线游戏创作平台 Roblox, 腾讯混元 Hunyuan3D-2，XR 实验室的 XR-3DGen 和海外初创公司 CSM 的 3D 创作平台等重量级项目的引用与认可。

相关技术已融入光影焕像的三维生成平台及产品，用户只需简单操作，就能开启专属三维创作之旅。

光影焕像 3D 生成平台（主站）：https://triverse.ai/zh-cn/
光影焕像 3D 生成平台（国内备用）：https://triverse.lightillusions.com/zh-cn/

本文中 Craftman3D 的共同一作李威宇、刘嘉瑞和阎鸿禹均为香港科技大学博士研究生。Dora 的第一作者为香港科技大学博士陈锐。均为香港科技大学谭平教授组的在读博士生。

三维内容的创建对于游戏、影视、AR/VR 乃至具身智能的环境仿真中具备关键作用。不过，传统三维建模方式要求建模者掌握大量专业知识，且需投入大量人工操作，这使得建模过程极为耗时，极具挑战性，对于非专业用户而言更是如此。过高的时间与人力成本，已然成为限制这些领域发展的主要瓶颈。近年来，基于 AI 的三维内容生成技术逐步改变了这一局面。借助自动化生成技术，三维内容创建的门槛大幅降低，让更广泛的用户群体能够高效地构建三维数字内容。

当前原生三维生成模型主要由两部分构成：一是 3D-VAE（3D Variational Auto Encoder）变分自编码器，它通过 Encoder 网络将三维模型压缩编码至潜在空间（latent space），并通过 Decoder 网络解码重构出三维模型；二是基于 3D-VAE 构建的潜在扩散模型（latent diffusion model）用于处理文本或图像输入的三维模型生成。三维生成大模型所呈现的细节上限，在很大程度上取决于 3D-VAE 对三维几何的编码与重建能力。为提升三维模型编解码过程中的几何细节丰富度，香港科技大学谭平团队联合字节跳动豆包大模型团队与光影焕像团队，共同提出了 Dora 模型来改进三维原生 VAE。

在 3D-VAE 模型的基础上，香港科技大学与光影焕像团队进一步提出了 Craftsman3D 算法方案，该方案借鉴了传统建模流程，能够快速生成高质量的 3D 模型，以进一步生成满足设计师对高质量三维模型的生成要求。此方法在 CVPR 中获得审稿人一致满分评价，它融合了原生 3D 大模型以及实时几何细节优化两大部分：首先由原生三维大模型生成初始模型，随后通过实时可交互几何细化操作，短短几十秒内即可生成具备高质量几何细节的三维模型。

Dora 开源代码：https://github.com/Seed3D/Dora/
Dora 项目主页：https://aruichen.github.io/Dora/

本文提出的 Dora-VAE，创新性地将显著边缘采样算法与双交叉注意力机制相结合，极大地提升了三维变分自编码器（3D-VAE）的重建质量与压缩性能。在训练阶段，该方法能够精准识别出具有较高几何复杂性的区域，并对其优先处理，从而有效改善了对精细几何特征的保留情况，让变分自编码器能够着重关注那些传统均匀采样方式容易忽视的关键几何细节。在实现高质量重建的同时，相较于当前 SOTA 方法（Xcube），Dora-VAE 在 3D 形状压缩率方面实现了超过 8 倍的提升。

当前，三维变分自编码器的运行机制是：通过在三维网格表面进行点采样来完成形状编码，而后利用解码器对原始三维网格进行重建。经过深入且细致的研究，研究人员察觉现有方法普遍采用均匀采样（uniform sampling）策略，从而导致重建性能受限。为了验证这一发现，研究人员选取了具有复杂几何细节的键盘（如下图 (a) 所示）作为实验对象，对其进行点云采样，并将不同采样策略在多种采样密度下的点云分布情况进行了可视化呈现（如下图 (b)(c) 所示）。实验结果清晰地显示：即便提升了采样率，采用均匀采样方式（如下图 (b) 所示）依旧无法有效地保留键盘按键等锐利特征（sharp feature）。这一简洁直观的实验有力地证实了，均匀采样在本质上对几何细节的捕捉能力形成了制约，而这种制约进一步对变分自编码器的重建精度以及所训练扩散模型的生成质量产生了不良影响。

受重要性采样理念的启发，研究人员设计了显著边缘采样（Sharp Edge Sampling, SES）算法，该算法能够基于几何显著性实现自适应点采样。具体而言，SES 算法首先识别网格中具有显著二面角的边缘（这些边缘所在区域往往对应高几何复杂度区域），并沿显著区域进行点采样。与此同时，为了保证三维模型表面的覆盖完整性，研究人员依旧会进行表面均匀点采样。因此，最终生成的采样点云

由表面均匀采样点

与显著区域采样点

联合构成：。

显著边缘检测（Salient Edges Detection）

给定一个三维网格，研究人员通过计算相邻面间的二面角获得显著边缘集合。对于每条由相邻面

和

共享的边

，研究人员通过下式计算其二面角

：

其中

和

分别表示面

和

的法向量。显著边缘集合包含所有二面角超过预设阈值

的边：，令

表示显著边缘的数量。

显著点采样（Salient Points Sampling）

针对每条显著边缘

，研究人员将其两个顶点

和

纳入显著顶点集合

，相连边缘产生的重复顶点仅保留一份：。令表示该集合中唯一几何顶点的数量。给定显著区域目标点数，当显著顶点过多时，通过最远点采样法 (Farthest Point Sampling, FPS) 进行顶点下采样；当显著顶点不足，通过对显著边缘增加采样来补充数据，从而得到显著区域采样点

。

基于 SES 算法，研究人员提出 Dora-VAE，在保持紧凑潜在表征的同时实现了高保真度的三维重建。为充分利用 SES 采样获得的富含细节的点云数据，研究人员设计了双交叉注意力编码架构，该架构在特征编码过程中能有效融合显著区域与均匀区域的特征表达。具体而言，研究人员沿用 3DShape2VecSet 的做法，首先分别对均匀采样点云

和显著区域采样点云

进行最远点下采样：

其中

与分别表示来自均匀采样点云

和显著区域采样点云

的下采样点云数量。研究人员随后分别计算均匀点与显著点的交叉注意力特征:

最终点云特征 C 通过融合双向注意力计算结果获得：

遵循 3DShape2VecSet，研究人员利用特征 C 通过自注意力模块预测占据区域

，整个模型

通过最小化均方误差损失进行优化：

研究人员通过三个指标评估重建质量：使用 1M 采样点对比输入网格与不同 3D VAEs 解码结果的差异，包括：1) F-score；2) 倒角距离 (CD)；3) 尖锐法线误差 (SNE)。为公平比较，研究人员同时给出潜在编码长度 (LCL)。结果表明，Dora-VAE 在 Dora-bench 中所有的指标都达到了最佳。

Craftman3d开源代码：https://github.com/wyysf-98/CraftsMan3D/
Craftman3d项目主页：https://craftsman3d.github.io/

在训练 3D-VAE 的基础上，CraftsMan3D 通过汲取传统建模流程的经验，精心设计了两阶段的技术方案：第一阶段使用原生三维大模型进行初始模型生成。算法先使用 multi-view image diffusion 进行多视图生成，然后将多视图输入到 3D-DiT 扩散模型中来生成拓扑规则的几何和纹理。第二阶段为几何细化阶段，团队使用法向图超分的方案实现高质量法向估计，然后通过可微渲染实现法线图引导的几何细节优化。

阶段一：基于 DiT 的原生三维大模型

团队提出了将三维扩散模型与多视图扩散模型相结合的原生三维生成方案。具体来说，算法使用 3D-VAE 将几何压缩到潜在空间，然后使用 3D-DiT 扩散模型在潜在空间进行生成。对于单个参考图像或文本提示输入，首先将其输入到多视图扩散模型中以获得多视图图像作为三维扩散模型的输入，然后使用三维扩散模型从中学习生成三维几何图形。

团队设计了完善的数据筛选 - 几何水密化 - 渲染等数据处理流程，形成了强大的数据处理平台以支撑原生三维大模型的训练数据。

阶段二：高质量几何细节优化

受限于 3D 大模型常用的隐式表达方案和 VAE 的压缩特性，原生三维生成的物体往往难以具备很高频的几何细节。因此，论文提出了第二阶段交互式几何细节优化，通过法相贴图生成和反向 “烘焙” 优化的方式捕捉高频的几何细节，从而产生高质量的三维资产。

具体来说，该部分通过基于表面法线贴图的扩散模型来实现法线图细节增强，并通过显式三角网格优化增加三维几何细节。团队在原版 stable diffusion 的基础上使用法线数据集微调，并借助 tile 插件实现法相贴图的超分辨率生成。通过这种方式模型既拥有几何细节生成能力，还保留了原有的泛化能力。进一步基于法线贴图优化直接优化三维网格顶点，只需 10 秒，即可在用户绘制的区域添加几何细节，并完全保持其他区域的几何形状。

该技术还支持趣味扩展功能：以人物照片为输入，可生成与输入图像面部特征匹配的 3D 模型，实现 3D 资产快速换脸。

使用Craftman3D三维生成技术方案，普通用户无需复杂操作即可快速搭建出精美的三维模型和场景。无论是游戏开发、影视制作还是建筑室内设计、具身感知虚拟场景，各类创意都能轻松实现。如下图所示，场景中的所有物体均由 Craftman3D 自动生成。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Whisper28f · 2025 年3 月 24 日 20:56

SES算法的关键在于“平衡”。它不是只关注显著边缘，而是结合了均匀采样，保证了模型整体结构的完整性。只关注边缘会导致模型“支离破碎”，缺少整体感。除了二面角，曲率、表面粗糙度等都可以作为“显著性”的指标，甚至可以考虑结合语义信息，比如物体的边缘、关键部位等。

Fluxion29d · 2025 年3 月 27 日 09:47

从商业角度看，被头部企业引用是对技术价值的直接肯定，有助于提升项目的影响力和商业化前景。从技术发展角度看，开源框架可以促进知识共享和协同创新，加速技术的迭代和完善。未来，随着更多人参与其中，三维内容创作的工具和流程将更加智能化、自动化，创作门槛进一步降低，涌现出更多高质量、个性化的三维内容。

TwilightPeacock415 · 2025 年3 月 27 日 12:24

简单来说，就是给3D模型“做美容”。法向图超分就是精细的化妆术，画好了能让模型更精致，画不好就成毁容了！所以，技术好不好很重要，数据也很重要，得用好的法线贴图训练模型，才能保证效果。

Comet761k · 2025 年3 月 28 日 03:41

法向图超分，本质上就是给模型表面增加更多细节信息。你可以想象一下，原本一个光滑的平面，通过法向图超分，可以模拟出粗糙的表面，坑坑洼洼的纹理，这样看起来就更真实。如果法向估计不准，那可就麻烦了，本来应该凸起的地方凹陷了，或者纹理方向乱了，模型看起来会非常奇怪，甚至扭曲变形！

GreenTurtle317 · 2025 年3 月 29 日 07:44

被Roblox引用，说明Craftsman3D的实用性和性能得到了业界的认可。Roblox这种平台对3D内容的需求量极大，如果Craftsman3D能帮助他们提高效率、降低成本，那意义非凡。开源框架的意义在于降低了技术门槛，让更多人可以参与到三维内容创作中来，加速技术创新和应用普及。

Strider82w · 2025 年3 月 29 日 11:48

这就相当于一个武林秘籍被公开了！大家都可以学，都可以改，都可以创造出更厉害的招式。Roblox用了，说明这秘籍确实有用，而且很有潜力。以后说不定人人都能成为3D建模大师，创造出自己的虚拟世界！

SpringFlower865 · 2025 年3 月 29 日 19:55

从学术角度讲，法向贴图存储了模型表面每个点的法向量信息，通过超分可以提高法向量的精度和密度，从而在视觉上增加模型的细节。但是，如果法向估计出现偏差，比如估计的法向量与真实表面不符，就会引入噪声，导致渲染时出现伪影或失真，影响模型质量。因此，需要高质量的法向估计方法和后处理技术来避免这种情况。

WanderingWolf359 · 2025 年3 月 30 日 14:18

从理论上讲，SES算法通过优先采样具有较大二面角的边缘区域来保留几何细节，同时均匀采样保证了模型的整体结构。这种混合采样策略可以在一定程度上平衡细节和结构。其他可以用于判断显著性的指标包括平均曲率、高斯曲率、形状索引等。此外，还可以引入注意力机制，让模型自主学习哪些区域更重要。

Frost16y · 2025 年3 月 31 日 07:37

这就好比画素描，要抓住物体的轮廓和关键细节，不能只盯着一个地方死磕。SES算法就是这个思路，既要突出重点（显著边缘），又要照顾全局（均匀采样）。至于其他指标，可以理解为不同的绘画技巧，比如用阴影表现立体感，用线条表现纹理等等。