阶跃星辰&光影焕像联合开源Step1X-3D:高质量可控的3D生成引擎

阶跃星辰&光影焕像联合开源Step1X-3D,参数量达4.8B,高质量可控。开源全链路训练代码,助力3D生成社区发展。

原文标题:阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码

原文作者:机器之心

冷月清谈:

阶跃星辰与光影焕像联合发布并开源了3D大模型Step1X-3D,该模型拥有4.8B参数,通过高质量数据与先进的3D原生架构,实现了高保真、可控的3D内容生成。Step1X-3D着重于“好用”与“可控”,旨在为游戏、影视、工业设计等领域提供可靠的技术引擎。该模型开源了完整的数据处理策略和全链路训练代码,包括800K高质量3D资产,3D VAE、3D Geometry Diffusion以及Texture Diffusion等。

怜星夜思:

1、Step1X-3D 的开源对于 3D 内容创作领域意味着什么?它会如何改变游戏、电影等行业的工作流程?
2、Step1X-3D 强调了数据的质量和处理,那么在实际应用中,要如何构建和维护一个高质量的 3D 数据集?有什么值得借鉴的经验?
3、Step1X-3D 在可控性方面做了很多工作,用户可以对生成 3D 资产的对称性、表面细节等属性进行调控。你认为未来 3D 生成模型的可控性还会朝着哪些方向发展?

原文内容


阶跃星辰携手光影焕像发布并开源 3D 大模型 ——Step1X-3D。Step1X-3D 模型总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。


Step1X-3D 不止于视觉「好看」,更追求实现「好用」与「可控」,旨在为 3D 内容创作提供强大而可靠的技术引擎。这款模型可以广泛应用在游戏娱乐、影视与动画制作、工业制造与设计等各种场景。


Step1X-3D 公布了完整的数据清洗策略,数据预处理策略,以及 800K 高质量的 3D 资产,3D VAE、3D Geometry Diffusion 以及 Texture Diffusion 的全链路训练代码开源,助力 3D 生成社区发展。



  • 论文标题:Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

  • 作者:Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai,  Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan,Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

  • 代码地址: https://github.com/stepfun-ai/Step1X-3D

  • 项目主页:https://stepfun-ai.github.io/Step1X-3D

  • HuggingFace: https://huggingface.co/stepfun-ai/Step1X-3D

  • 技术报告: https://arxiv.org/pdf/2505.07747



欢迎大家上手体验:


Online Demo(立即体验):https://huggingface.co/spaces/stepfun-ai/Step1X-3D


核心特性与技术支撑


Step1X-3D 尝试解决 3D 内容生成的关键挑战,在数据、生成质量与可控性上进行了创新实践。


1. 数据驱动与算法协同优化


好数据是好模型的基础。Step1X-3D 对超 500 万原始数据进行严格筛选与处理后,建立了包含 200 万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。


数据处理流程示意图


此外,Step1X-3D 通过增强型网格 - SDF 转换技术等方法,从源头保障了模型学习的精准性与最终生成的高效性,让水密几何转换成功率提升了 20%,也让 Step1X-3D 拥有了强大的泛化能力与细节捕捉力。


Step1X-3D 数据筛选与 SDF 转换流程示意图


2. 3D 原生生成:结构清晰、细节生动


Step1X-3D 采用先进的 3D 原生两阶段架构,解耦几何与纹理表征,确保生成的不仅是视觉「皮囊」,更是结构可靠、可供下游应用的「骨架」,有效规避几何失真,保证生成的准确性、真实感与一致性。


Step1X-3D 的原生 3D 架构



基于 FLUX MMDiT 结构和 Rectified flow 算法直接对 3D 表示生成进行建模。



纹理生成模型基于预训练的 Diffusion model,通过单视图和 3D 几何信息指导,生成多视角一致的纹理信息


2.1 几何塑形更精准:


几何生成的核心在于采用为 3D 特性深度优化的创新混合 VAE-DiT 架构。该架构负责生成水密(Watertight)的 TSDF 内部表示,确保产出的 3D 模型结构完整、无破面漏点;同时通过引入锐利边缘采样(Sharp Edge Sampling)等技术,精准捕捉并还原物体的丰富几何细节。


几何示例:覆盖硬边与曲面结构


2.2 纹理细节更生动:


纹理生成则基于强大的 SD-XL 模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免常见的扭曲与接缝瑕疵。


纹理示例:呈现清晰一致的表面纹理


3. 控制简单、效果可调


Step1X-3D 显著提升了 3D 内容生成的可控性与易用性。其关键在于,VAE-Diffusion 整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术(如轻量化的 LoRA 微调)。


因此用户可以对生成 3D 资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作更精准地符合用户意图。


对比图 1:对称性控制效果


对比图 2:表面细节控制效果(锋利 / 平滑)


性能评估


为了客观评估 Step1X-3D 的实际效果,我们通过一个自建的综合测试,对 Step1X-3D 进行了严格的定量与定性评估,同时与多款主流模型进行全面对比。


结果显示:在自动评估中,Step1X-3D 在多项关键维度上均表现出色。



在与主流 3D 模型的对比评测中,特别是在衡量内容与输入语义一致性的核心指标 CLIP-Score 上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的 3D 生成方案。


不同 3D 模型测评对比数据


团队介绍


阶跃星辰 Step1X-3D 团队和光影幻像 LightIllusions 团队。阶跃星辰以实现 AGI为目标,规划了从单模态到多模态、再到多模理解与生成统一的技术路径,最终构建世界模型的大模型公司。光影焕像是一家专注于 3D AIGC 和空间智能技术的人工智能初创公司,公司致力于通过 AI 解放 3D 内容生产力。公司自设立之后便迅速建立了算法研发和产品落地并重的海内外人才梯队,拥有一批 3D AIGC 领域顶尖人才,迄今已经发表过多个 3D AIGC 代表性工作,汇集了来自港科大博士、字节、美团等具有顶级研发能力和丰富技术产品化经验的同学。 公司目前持续重点投入 3D 和空间智能相关的 AI 底层模型的研发,打造 3D 空间智能大脑,同时积极推进 3D 内容商业化落地。


官网:https://www.lightillusions.com/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从数据管理的角度来看,构建高质量 3D 数据集需要一套完善的标准和流程。首先,要建立统一的数据格式和标注规范,确保数据的互操作性和一致性。 其次,要采用科学的数据治理方法,对数据进行分类、整理、清洗和验证。此外,可以考虑引入数据质量评估指标,定期对数据质量进行评估和监控。更为重要的是,要建立一个开放的数据共享平台,鼓励用户参与到数据质量的改进和维护中来。通过众包的方式,可以有效地提高数据质量和覆盖范围。

现在只能调对称性和表面细节,感觉还是有点不够意思。 我希望以后能直接“指定”模型的某个部分,比如“把这个杯子的把手换成龙头的形状”,或者“给这辆跑车加上一对翅膀”。最好还能直接导入自己的草图或者照片,让 AI 自动生成 3D 模型。 总之,就是要让 AI 真正成为我的“创意助手”,而不是一个只会按照固定模板生成东西的“工具”。

从人机交互的角度来看,未来 3D 生成模型的可控性需要更加注重用户体验。一方面,要设计更直观、更易用的控制界面,让用户可以轻松地理解和操作各种参数。另一方面,要引入更多的反馈机制,让用户可以及时地了解模型的生成进度和效果。此外,可以考虑将 3D 生成模型与 VR/AR 等技术相结合,让用户可以在沉浸式的环境中进行创作和编辑。通过不断地优化人机交互方式,可以极大地提高 3D 内容创作的效率和乐趣。

感觉高质量 3D 数据集就像是 AI 的“食粮”,没有好的“食材”,再厉害的“厨师”也做不出美味佳肴。 我觉得除了文章里提到的筛选和处理,还可以考虑用一些技术手段来提升数据质量,比如用 AI 自动修复模型缺陷,或者用 GAN 生成更多样化的 3D 数据。当然,最靠谱的还是人工审核,毕竟 AI 再厉害,也比不上人眼对细节的敏感度。

Step1X-3D 的可控性已经很棒了,但未来肯定还有更多想象空间!我认为未来 3D 生成模型的可控性可能会朝着以下几个方向发展:一是更精细的控制,比如可以控制模型的材质、颜色、光照等细节;二是更高级的语义控制,比如可以通过自然语言描述来生成特定风格或功能的模型;三是更强的交互性,比如可以像玩游戏一样,实时调整模型的各种参数,并立即看到效果。总之,未来的目标是让用户能够像指挥一位经验丰富的 3D 建模师一样,轻松地创造出自己想要的 3D 内容。

这个问题问得好!Step1X-3D 的开源,就像给 3D 内容创作领域送来了一把瑞士军刀。想象一下,以前需要专业团队花费大量时间才能完成的模型,现在可能通过简单的 prompt 就能快速生成,这无疑会大大降低创作门槛和成本。游戏行业可能会涌现出更多独立开发者,电影特效的制作周期也会缩短。而且,开源意味着更多人可以参与到模型的改进和优化中来,这将会加速 3D 内容生成技术的进步。不过,这也可能对传统的 3D 建模师带来一定的冲击,他们需要不断学习新的技能才能适应新的行业环境。

从更学术的角度来看,Step1X-3D 的开源标志着 3D 内容生成领域从封闭走向开放的新阶段。过去,这类技术往往掌握在少数大型公司手中,而开源则意味着技术的 democratisation。研究人员可以基于开源代码进行更深入的探索,开发者可以将其应用到各种创新项目中。长期来看,这有助于打破技术垄断,促进整个行业生态的健康发展。更重要的是,开源能够促进知识的共享和传播,加速 3D 内容生成技术的普及和应用,最终推动相关产业的创新发展。

构建高质量的 3D 数据集是个大工程!Step1X-3D 的经验告诉我们,首先要有严格的筛选标准,剔除那些低质量或者不规范的数据。其次,数据清洗和预处理至关重要,比如对模型进行标准化、修复破损等等。此外,可以考虑使用增强型网格 - SDF 转换技术,提高数据精度和质量。另外,持续的数据更新和维护也是必不可少的,要不断地收集新的数据,并对现有数据进行优化和校正。总之,这是一个持续投入、精益求精的过程。

我感觉这玩意儿就像是给 3D 建模开了个“外挂”,以后怕不是人人都能当 3D 设计师了? 不过话说回来,AI 生成的东西总感觉缺少点灵魂啊,真正的大师还是需要时间的沉淀和灵感的迸发。当然,对于我们这种小白来说,用 AI 快速生成一些简单的模型还是挺香的,至少不用再对着 Blender 挠头了。