斯坦福大学团队开发出「场景语言」,利用自然语言指令构建三维场景。它能智能理解场景描述,生成逼真场景,还可以通过简单指令编辑场景。该语言融合了程序语言、自然语言与神经网络表征,在用户偏好测试和物体控制准确率方面都展现出优势。
原文标题:一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解
原文作者:机器之心
冷月清谈:
斯坦福大学研究团队开发出「场景语言」,让人类可以通过自然语言指令来构建精细的三维场景。该语言由程序语言、自然语言和神经网络表征融合而成,兼具结构化表达、语义理解和视觉细节捕捉能力,能够精准描述场景的整体结构和物体细节。
**智能场景理解与编辑**
使用场景语言,AI可以智能地理解人类描述,并转化为逼真的三维场景。模型不仅能识别基础的场景元素(如物体类别、位置关系),还能生成动态场景。同时,场景语言还支持场景编辑,可以通过简单指令调整场景中元素的位置、风格等。
**技术亮点与优势**
场景语言融合了程序语言的精确描述、自然语言的语义信息和神经网络表征的视觉细节捕捉能力,形成了强大的场景构建工具。与现有技术相比,场景语言在用户偏好测试中获得85.65%的偏好,并且在物体数量控制方面的测试集准确率达到100%。
**应用前景**
该项研究展示了AI理解和创造三维世界的巨大潜力,有望在游戏开发、建筑设计等领域引发创新。
怜星夜思:
2、场景语言在实际应用中有哪些潜力?
3、如何进一步完善场景语言技术?
原文内容
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
从文字生成三维世界的场景有多难?
试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?
斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)。
-
项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-language/
-
文章地址:https://arxiv.org/abs/2410.16770

-
64 个黑白相间的格子
-
按规则排列的 32 个棋子
-
每个棋子的独特造型





-
用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍;
-
在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。