Roblox推出3D智能基础模型Cube:AI赋能,一句话生成游戏资产

Roblox发布3D智能基础模型Cube,AI一句话生成游戏资产,赋能游戏创作,但生成质量仍有提升空间。

原文标题:Roblox发布3D智能基础模型Cube,一句话生成游戏资产

原文作者:机器之心

冷月清谈:

Roblox发布了3D智能基础模型Cube,旨在通过AI技术革新游戏创作体验。Cube模型能够生成3D物体、场景、人物角色,甚至描述事物行为的编程脚本。该模型基于编码器-解码器架构,通过形状token化、相位调制位置编码和随机梯度捷径等技术,实现了从文本到形状、形状到文本以及文本到场景的生成。Roblox设想Cube作为各种协作助手的基础,帮助开发者创造Roblox游戏体验的各个方面,但目前Cube在生成日常事物方面表现较好,对于超出常识的指令,结果可能不尽如人意。Roblox计划未来继续优化模型,弥合离散模型和连续模型之间的差距。

怜星夜思:

1、Roblox的Cube模型目前看来在处理复杂或抽象概念时还有局限性,那么,你认为未来AI在游戏资产生成方面,可能在哪些方面取得突破,从而更好地理解和满足用户的需求?
2、文章提到Roblox的Cube模型采用了形状Token化技术,你认为这种技术在3D模型生成中有什么优势和局限性?除了Token化,还有哪些其他的3D模型表示方法?
3、Roblox的最终目标是构建一个能生成游戏各方面体验的3D智能基础模型,你认为要实现这个目标,除了技术上的挑战,还可能面临哪些伦理和社会问题?

原文内容

机器之心报道

编辑:2049、Panda

Roblox,这个备受青少年喜爱的在线游戏平台,正通过引入 AI 技术,进一步革新游戏的创作体验。据了解,曾获选「儿童票选奖最受欢迎游戏」的 Roblox 允许用户设计自己的游戏、物品及衣服,以及游玩自己和其他开发者创建的各种不同类型的游戏。而现在,用户可以借助 AI 来完成这些创作了。


近日,Roblox 发布了一个用于 3D 智能的基础模型 Cude。据介绍,Roblox 的目标是构建一个可以生成 Roblox 游戏各方面体验的 3D 智能基础模型,从生成 3D 物体和场景到人物角色,再到描述事物行为的编程脚本。

Roblox 创始人兼 CEO David Baszucki 的推文

图片

Roblox 还在 Hugging Face 上线了一个 Web 应用,也已经有不少网友分享了他们各自的生成结果。这里我们也来尝试一番。

首先,让 Cude 生成一个三头六臂的男孩(a boy with 3 heads and 6 arms):

图片

这和我们常见的哪吒形态可真是相去甚远。下面再来个更加日常一些的事物:一台老式打字机(An old-fashioned typewriter)。

图片

这一次 Cube 的表现就好多了。多次尝试后,我们发现,Cube 的整体效果目前还只能说是一般 —— 在生成日常可见的事物表现会好一点,略微超出常识的东西都会让它给出与指令不符的结果,比如让它生成一只手叉腰站立的猫(A cat standing with hands on hips)。

图片

下面我们就来具体看看 Roblox 的这项研究。


  • 论文标题:Cube: A Roblox View of 3D Intelligence
  • 论文地址:https://arxiv.org/pdf/2503.15475
  • 项目地址:https://github.com/Roblox/cube
  • 试用链接:https://huggingface.co/spaces/Roblox/cube3d-interactive

作为一家游戏公司,Roblox 开发这个 3D 智能基础模型的动机非常明显。

他们表示:「我们将此模型设想为各种协作助手的基础 —— 可以帮助开发者创造 Roblox 体验的各个方面,从创建单个 3D 对象(例如,制作带翅膀的摩托车)到完整的 3D 场景布局(例如,创建一个未来风格云朵城市),再到穿戴装备的人物角色(例如,生成一个能够进行墙壁跳跃的外星忍者)到描述对象行为、交互和游戏逻辑的脚本(例如,当玩家靠近门并携带金钥匙时,让门打开)。」

基于这些设想,他们首先确立了三个核心设计要求:

  • 能从稀疏的多模态数据中联合学习;
  • 可通过自回归模型处理无界的输入 / 输出大小;
  • 能通过多模态输入 / 输出与人类和其他 AI 系统协作。

当然,理想虽然很丰满,甚至涉及到「元宇宙」等概念,但现实的路还是得一步步地走。这一次发布的 Cube 模型是 Roblox 向 3D 智能基础模型迈出的第一步。

具体来说,他们关注的核心是 3D 形状的 token 化——毕竟几何形状应该是这个基础模型的核心数据类型。

他们的研究表明,新提出的 token 化方案可以用来构建多种应用,包括文本到形状生成、形状到文本生成和文本到场景生成,如图 1 和 2 所示。



 形状 token 化

为了忠实地捕捉各种几何特性,包括光滑的表面、锐利的边缘、高频细节,需要一种具有足够表现力的 3D 几何表示,其可用作多模态自回归序列模型的输入和输出 token。

立足于这样的需求,Roblox 从 3DShape2VecSet 等连续形状表示开始,并将其调整为离散 token,以实现对跨模态的输入和输出的原生处理 —— 类似于 Chameleon 等混合模态基础模型。

如图 3 所示,Cube 的高层架构采用了编码器 - 解码器设计,其会将输入的 3D mesh 编码成一种隐含表征,而这种隐含表征之后又可被解码成一种隐式占用场(implicit occupancy field)。


其中一个关键区别在于会通过一个额外的向量量化过程来离散化这个连续的隐含表征,而由于其不可微分的性质,这又会带来额外的难题。

为此,他们提出了两种技术:随机梯度捷径和自监督隐含空间正则化。

他们还提出了另一项架构改进:使用相位调制位置编码。其作用是能提高基于感知器的 Transformer 在交叉注意力层中为空间不同点消歧的能力。

该团队表示:「这些架构变化使我们训练出的形状 token 化器可以忠实地捕捉各种形状,同时产生适合用于训练基于 token 的混合模态基础模型的离散 token。」

相位调制位置编码

为了将形状编码成一个紧凑的隐含表示,研究者首先从其表面采样 𝑁_𝑝 个点以创建一个点云 P。先前的工作在使用 transformer 网络处理 P 之前,通过正弦位置编码函数 𝛾(・) 对其进行嵌入:

图片

其中 𝛾(𝑝) 分别应用于 P 中三个坐标通道 𝑝 ∈ [𝑥, 𝑦, 𝑧] 的每一个,且 𝜔_𝑖 = 2⌊𝑖/2⌋𝜋, 𝜑_𝑖 = 𝜋/2 (𝑖 mod 2),对于 𝑖 = 1,・・・,𝐿,其中 𝐿 是基频的数量。

𝛾(・) 函数的周期性特性导致在空间中相隔 2𝜋/𝜔_𝑖整数倍的点会在第𝑖个通道中被映射为相同的编码。这一现象使得空间上相距较远的点可能会映射到相似的嵌入向量(图 4a),而这些向量在经过交叉注意力层的点积运算后难以被有效区分。由于嵌入无法区分空间上相距较远的点,相应地,也无法区分不同形状表面的特征,最终导致形状重建质量下降。


为了解决这个问题,需要一种新型技术来编码点,使其不仅能像传统位置编码那样捕获多尺度特征,还能在点积注意力机制中保持空间上相距较远的点的区分性。研究者从相位调制技术中汲取灵感,提出了相位调制位置编码 (PMPE)。PMPE 在所有正弦函数上调制相位偏移,并使用嵌入函数𝛾_PM,定义为:


其中𝛾(𝑝) 是传统的编码函数,𝛽是控制通道间相位变化率的超参数。这里的 (𝛽𝐿)(1-𝑖/𝐿) 项用于改变基频,以避免𝛾(𝑝) 和𝛾′(𝑝) 之间的共振。

与使用指数增长频率来捕获多尺度特征的𝛾(𝑝) 不同,𝛾′(𝑝) 对每个通道使用相同的频率𝜋/2,但通过𝑖的非线性函数来改变相位偏移𝜑′𝑖。这种非线性相位调制确保了空间上相距较远的点在映射到嵌入空间时保持区分性,如图 4b 所示。

实验表明,PMPE 显著提高了重建保真度,特别是对于复杂的几何细节。PMPE 还减少了例如色斑 (disco) 等伪影的产生。

用于梯度稳定化的随机线性捷径

在将输入形状编码为连续隐向量后,研究者采用最优传输 VQ(optimal transport VQ)将隐向量转换为离散 token 序列。由于 VQ-VAE 中的量化层涉及不可微分的码本嵌入(codebook embedding)分配,可能导致训练不稳定。

研究者引入了额外的线性捷径层,可随机跳过整个量化瓶颈。他们以 50% 概率通过线性层投影编码器的隐向量,直接输入解码器。这与直接捷径(direct shortcut)方法不同,后者使用恒等层而非线性层,实验证明表现不佳。

额外的线性层使捷径路径能作为量化路径的教师网络,防止陷入局部最小值。实验证明这种方法可降低训练和验证损失,并能提高训练稳定性。 

通过自监督损失学习几何聚类的隐含表示

借鉴视觉模型研究,该研究采用自监督损失来正则化隐含空间,使相似形状产生接近的隐向量,图 5 展示了该编码器的自监督学习流程。研究者维护了编码器的指数移动平均版本作为教师模型,学生编码器接收掩码输入,教师编码器访问完整查询集。


两个编码器使用额外 MLP 头生成「原型分数(prototype scores)」,自监督损失是这些分数间的交叉熵,通过 λ_SSL 平衡与重建损失的关系。这使几何相似形状能编码为高余弦相似度的隐向量。

如图 6 所示,将几何相似形状编码为具有高余弦相似度的隐向量的能力自然地从额外的自监督损失中产生。研究者预计这一特性将对广泛的形状处理应用证明其价值。


实验

架构详情

该模型使用结构相似的编码器 (13 层) 和解码器 (24 层) Transformer,每层宽度 768,共 12 个注意力头,总参数量 2.73 亿。使用 512 个隐含编码 token,16,384 大小的码本,嵌入维度 32。PMPE 参数 β = 0.125,自监督损失 λ_SSL = 0.0005。VQ 层采用 OptVQ 变体,集成最优传输方法。

训练数据

研究在约 150 万个 3D 物体资产上训练模型,包括 Objaverse 等公开数据集和 Roblox Creator Store 资产。所有资产归一化至 [-1,1] 范围内,训练时在表面采样 8,192 点用于输入编码,额外采样 8,192 点计算占用损失(occupancy loss)。

模型比较

研究比较了离散形状 tokenizer 与一种连续变体,并与 CraftsMan(在 17 万物体上训练)进行对比。在 Toys4K 数据集上评估表面交并比(S-IoU)和体积交并比(V-IoU)表明,该研究的 VQ-VAE 模型和连续变体均优于 CraftsMan,但连续变体仍优于离散模型,表明向量量化过程存在几何保真度损失。

如表 1 和图 7 所示,该研究提出的 VQ-VAE 模型(Ours-VQ)和连续变体(Ours-KL)在 S-IoU 和 V-IoU 指标上均优于 CraftsMan。连续变体仍然优于其对应的离散模型,这表明通过向量量化过程仍然存在一些几何保真度的损失。研究团队计划在未来的工作中弥合这一差距。



最后,Roblox 在论文中展示了一些具体的应用,包括文本到形状生成、形状到文本生成和文本到场景生成:





更多详情请前往原论文一探究竟。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


这个问题问得非常专业! 形状Token化,简单来说就是把连续的3D模型数据转换成离散的token序列,类似于自然语言处理中的词汇。我觉得这个技术在3D模型生成中的优势主要有:

* 方便与Transformer等序列模型结合: Transformer在处理序列数据方面非常强大,Token化之后就可以直接利用这些模型来生成3D模型。
* 有利于多模态学习: 可以将3D模型与其他模态的数据(例如文本、图像)对齐,从而实现跨模态的生成和理解。

当然,Token化也有一些局限性:

* 信息损失: 将连续数据离散化必然会带来一定的信息损失,可能会影响生成模型的精度。
* Token序列长度限制: Transformer等模型对输入序列的长度有限制,因此需要对3D模型进行压缩,可能会进一步加剧信息损失。

除了Token化,还有很多其他的3D模型表示方法,例如:

* 点云: 直接用3D空间中的点集来表示模型,简单直观,但对噪声敏感。
* 体素: 将3D空间划分成小的立方体,每个立方体表示模型的一部分,适合表示复杂的拓扑结构,但计算量大。
* 网格: 用三角形或多边形网格来表示模型,常用且高效,但对模型的拓扑结构有一定要求。

不同的表示方法各有优缺点,需要根据具体的应用场景选择合适的方案。

我觉得这个问题问到了点子上。现在AI生成游戏素材确实还不够完美,想象力稍微超出现实,就容易翻车。我个人觉得想实现大的突破,至少得解决这几个问题:

* 数据质量和多样性: AI 训练需要大量高质量的数据,目前很多数据集的标注可能不够精细,或者数据类型不够丰富,导致 AI 在生成特定风格或类型的资产时表现不佳。

* 风格迁移能力: 现在的 AI 模型在风格迁移方面还有待提高,很难生成具有特定艺术风格的资产。如果能在这方面取得突破,就能更好地满足不同游戏的需求。

* 细节处理能力: 游戏资产的细节至关重要,目前的 AI 模型在细节处理方面还不够精细,容易出现模糊、失真等问题。如果能提高细节处理能力,就能生成更逼真的资产。

总而言之,AI游戏资产生成还有很长的路要走,需要不断地探索和创新。

谢邀,利益相关,略懂一点点3D模型。Token化这个思路很棒,有点像把3D模型“翻译”成计算机更容易理解的语言。

优点:
*方便后续处理。token化之后,我们可以很方便的使用现有的NLP模型来处理3D模型,例如Transformer。

缺点:
损失精度。这个是必然的,信息论了解一下,任何压缩都是有损的,token化也不例外。

其他的3D模型表示方法:
隐函数表示: 将3D模型表示为一个隐函数,例如SDF(Signed Distance Field)。

总之,每种表示方法都有自己的适用场景,需要根据具体情况选择。

这个问题很有意思!我觉得AI在游戏资产生成方面未来的突破口可能在以下几个方面:

1. 更强的语义理解能力: 目前的AI模型可能更多依赖于关键词匹配,而缺乏对用户意图的深入理解。如果AI能够更准确地捕捉用户描述中的情感、风格等细微之处,就能生成更符合预期的资产。

2. 生成对抗网络(GAN)的改进: GAN在图像生成方面已经取得了显著成果,但稳定性仍然是一个问题。未来,通过改进GAN的训练方式、网络结构等,可以提高生成资产的质量和多样性。

3. 结合程序化生成: 纯粹的AI生成可能缺乏可控性,而程序化生成虽然可控但缺乏创造性。将两者结合起来,既能保证资产的多样性,又能让开发者对生成结果进行精细调整。

4. 用户反馈的有效利用: 让AI能够根据用户的反馈(例如点赞、修改等)不断学习和改进,从而更好地满足用户的个性化需求。

总之,未来的AI游戏资产生成将更加智能、可控和个性化。

你说的这些问题都很关键!我觉得AI在游戏领域的应用,确实需要我们提前做好规划和应对。除了你提到的,我还想到一些:

1. 游戏同质化: 如果大家都用 AI 来生成游戏,会不会导致游戏内容过于相似,缺乏创新性?如何鼓励开发者利用 AI 创造出更独特、更具个性的游戏?

2. 游戏成瘾: AI 可以通过分析用户的行为,生成更具吸引力的游戏内容,但也可能导致游戏成瘾问题更加严重。如何防止 AI 被滥用,保护用户的身心健康?

3. 数字鸿沟: 掌握 AI 技术的人和不掌握 AI 技术的人之间,可能会出现更大的数字鸿沟。如何让更多的人参与到 AI 时代,避免边缘化?

总而言之,AI在游戏领域的应用,既带来了机遇,也带来了挑战。我们需要在拥抱新技术的同时,也要关注可能带来的负面影响,共同构建一个更美好的游戏未来。

这让我想起了科幻电影里的情节,AI 可以根据你的想法,瞬间创造出任何你想要的东西。但现实是,现在的 AI 还是笨笨的,只能做一些简单的任务。我觉得未来的突破可能在于:

1. 更强大的计算能力: AI 模型的训练需要大量的计算资源,如果计算能力能够进一步提高,就能训练出更复杂的模型,从而生成更逼真的资产。

2. 更先进的算法: 现在的 AI 算法还不够完善,需要不断地改进和创新。例如,可以探索使用新的神经网络结构、损失函数等,来提高生成资产的质量。

3. 更好的用户界面: 让用户能够更方便地与 AI 进行交互,从而更好地表达自己的需求。例如,可以开发更直观的图形界面、语音控制等。

当然,这只是我的一些猜想,未来 AI 在游戏资产生成方面会有怎样的发展,让我们拭目以待!

Roblox这个目标确实很宏伟,想想未来AI能帮你设计游戏,甚至能跟你一起玩,就觉得很 exciting!但同时也带来了一些伦理和社会问题,我觉得需要认真思考:

1. 创意所有权: 如果AI生成的游戏内容与现有作品非常相似,甚至构成抄袭,那么谁应该承担责任?AI的创造是否应该受到版权保护?

2. 就业问题: 如果AI能够高效地生成游戏资产,那么游戏设计师、美术师等从业者的就业机会可能会受到影响。我们应该如何应对这种变革?

3. 内容审核: AI生成的内容可能存在不当或有害信息,如何进行有效的内容审核?谁来负责审核工作?

4. 算法偏见: AI模型可能会受到训练数据的影响,产生偏见,例如性别歧视、种族歧视等。如何避免这种偏见?

5. 用户隐私: 为了训练AI模型,可能需要收集用户的游戏数据,如何保护用户的隐私?

这些问题都需要政府、企业、学界以及广大用户共同探讨和解决,才能确保AI技术健康发展,为人类带来福祉。

楼上说的都有道理。我补充一点,关于AI的可解释性问题。如果AI生成的结果不符合预期,我们很难知道问题出在哪里,也很难对AI进行改进。这就像一个黑盒子,虽然能用,但心里总觉得不踏实。希望未来能有更多关于AI可解释性的研究,让我们更了解AI的工作原理,从而更好地利用AI。

Token化这个概念,我最早接触还是在搞NLP的时候。把它用到3D模型上,感觉挺有意思的。我理解的优势是:

1. 压缩数据: 3D模型数据量通常很大,Token化可以有效压缩数据,减少存储和传输成本。
2. 加速计算: Token化后,模型可以用更高效的算法进行处理,例如 Transformer。

局限性嘛,我觉得主要还是:

1. 精度损失: Token化过程可能会损失一些细节信息,导致生成的模型不够精确。
2. 泛化能力: 如果Token集合不够丰富,可能会影响模型的泛化能力,导致生成的模型不够多样化。

除了Token化,还有一些其他的3D模型表示方法,比如:

* NURBS曲面: 适合表示光滑的曲面,广泛应用于工业设计等领域。
* SDF(Signed Distance Field): 表示空间中每个点到模型表面的距离,适合表示复杂的拓扑结构。

选择哪种表示方法,取决于应用场景、数据量、精度要求等多个因素。