LEGOGPT:AI 一句话搭建乐高,CMU 新作引爆网友

CMU发布LEGOGPT,通过文本生成3D乐高模型,可一键搭建沙发、书架等。研究着重于物理稳定性和可搭建性,未来可期。

原文标题:CMU朱俊彦等上新LEGOGPT,一句话就能搭乐高,网友:复杂零件行不行?

原文作者:机器之心

冷月清谈:

卡内基梅隆大学(CMU)朱俊彦团队近期推出 LEGOGPT,一个可以通过文本指令生成 3D 乐高模型的大模型。用户只需输入简单的文本描述,例如“基本款沙发”或“复杂书架”,LEGOGPT 就能迅速生成相应的乐高积木模型,并且模型具备纹理和颜色。为了验证 AI 设计的实用性,研究人员还使用机器臂组装了 LEGOGPT 创建的乐高模型,结果表明该设计在现实中具有可操作性。该研究着重解决生成物理可实现对象(即可组装和物理稳定的对象)的挑战,LEGOGPT 通过将乐高设计问题转化为自回归文本生成任务,并强制执行物理约束,确保生成结构的稳定性和可搭建性。研究人员构建了一个包含大量物理稳定的乐高设计数据集,并在训练和推理过程中进行有效性检查和物理感知回滚。实验结果表明,LEGOGPT 生成的乐高设计在稳定性、多样性和视觉吸引力方面均优于现有方法。虽然当前版本存在尺寸和类别限制,但研究团队正努力扩展其能力,朝着“物理对象生成制造”的目标迈进。

怜星夜思:

1、LEGOGPT 依赖大量数据集进行训练,那么如果想用它生成一些非常规的、数据集里没有的乐高模型,效果会怎么样?例如,输入一个非常抽象的概念,让它生成乐高模型。
2、文章里提到 LEGOGPT 目前只支持 20x20x20 的构建尺寸,未来如果扩大尺寸,会不会遇到什么新的技术挑战?
3、LEGOGPT 在确保乐高结构物理稳定性方面做了很多工作,那么,如果让它设计的乐高模型经受一些外力作用,比如轻微的摇晃、碰撞,它的稳定性表现会如何?是否需要进一步优化?

原文内容

机器之心报道

机器之心编辑部

AI 不允许有人不会搭乐高。


近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。


这款大模型有多强呢?比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。


图片


如果你觉得乐高沙发太简单,可以继续上难度,让它生成一个复杂点的书架,只见不同大小的积木拼拼凑凑,乐高书架就完工了,整个流程像不像你在拼乐高:


图片


不仅如此,生成的乐高还有纹理和颜色:


图片


图片


图片


为了证明 AI 搭乐高的设计过程在现实生活中可用,研究人员让机器臂组装了由 AI 创建的 LEGO 模型,结果很完美。


图片


接下来,我们看文章主要内容。


得益于生成模型和神经渲染技术,3D 生成模型已经取得了显著进展,并在虚拟现实、游戏、娱乐和科学计算等领域实现了各种应用。比如,一些研究探索了从文本合成 3D 对象、为网格添加纹理以及操控现有 3D 对象和场景的形状和外观。


不过,应用现有方法创建现实世界中的对象仍然充满挑战。大多数方法侧重于生成具有高保真几何形状和外观的多样化 3D 对象,但受限于两个关键挑战,这些数字设计往往无法在物理上实现。一是,这些对象可能难以使用标准组件来组装或制作。二是,即使可以组装,最终的结构也可能存在物理不稳定。如果没有适当的支撑,设计的某些部分可能会坍塌、漂浮或保持分离状态。


因此,朱俊彦团队探讨了生成物理可实现对象的挑战,并在乐高(LEGO)设计环境中进行研究。乐高广泛应用于娱乐、教育、艺术创作和制造原型。同时,由于所有标准组件很容易获得,乐高可以作为可复现的研究基准。由于手动设计需要付出巨大努力,最近一些研究开发了自动化算法来简化流程并生成了令人信服的结果。


然而,现有方法主要基于给定的 3D 对象创建乐高设计,或者专注于单一对象类别。本文的目标是开发一种方法,直接从自由格式的文本提示生成乐高设计,同时确保其物理稳定性和可搭建性。具体来说,研究者的目标是训练一个生成模型,使其能够生成具有以下特点的设计:


  • 物理稳定性:构建在具有强大结构完整性的乐高底板上,不会出现积木漂浮或坍塌的情况。

  • 可搭建性:与标准乐高积木兼容,并且能够由人类或机器人逐块组装。


研究者提出了 LEGOGPT,其关键洞察在于将最初用于下一个 Token 预测的自回归大型语言模型重新用于下一个积木预测。他们将乐高设计问题表述为一个自回归文本生成任务,其中下一个积木的尺寸和位置用简单的文本格式指定。而为了确保生成的结构既稳定又可搭建,研究者在训练和推理过程中都强制执行物理感知的组装约束。


在训练过程中,研究者构建了一个包含物理稳定的乐高设计并配有字幕的大规模数据集。在自回归推理过程中,研究者通过有效性检查和物理感知回滚来执行可行性,以确保最终的 Token 符合物理定律和组装约束。



  • 论文标题: Generating Physically Stable and Buildable LEGO® Designs from Text 

  • 论文主页:https://avalovelace1.github.io/LegoGPT/

  • arXiv 地址:https://arxiv.org/pdf/2505.05469

  • GitHub 地址:https://github.com/AvaLovelace1/LegoGPT

  • Demo 地址:https://huggingface.co/spaces/cmu-gil/LegoGPT-Demo


实验表明,本文生成的乐高设计稳定、多样且视觉吸引力强,同时能够完美契合输入文本提示。本文方法优于预训练的 LLM(无论是否包含上下文学习)以及以往基于网格 3D 生成的方法。


朱俊彦表示:LegoGPT 是迈向「物理对象生成制造」这一终极目标的一小步。当前版本仍存在局限:仅支持 20x20x20 的构建尺寸、21 种物体类别和基础积木类型,但他们也在努力扩展其能力!



面对这么好玩的应用,网友纷纷求教程:



还有网友担心,复杂的零件能不能完成啊?



方法介绍


数据集


训练自回归模型需要大规模数据集,因此,本文推出了 StableText2Lego,这是一个全新的大规模 LEGO 数据集,包含 47,000 多种不同的乐高结构,并涵盖 ShapeNetCore 数据集中 21 个常见对象类别中的 28,000 多个独特的 3D 对象。其概览如图 2 所示。



LegoGPT Pipeline


在实现方法上,本文提出了 LEGOGPT,这是一种能够根据文本提示生成物理结构稳定的 LEGO 设计的方法。


该方法通过利用 LLM 的序列建模和文本理解能力,对预训练 LLM 进行 LEGO 生成任务的微调。为了增强设计成品的结构稳定性和可搭建性,本文在推理过程中采用了逐块拒绝采样和物理感知回滚机制。图 3 展示了本方法的整体框架。



模型微调:本文进一步使用自定义指令数据集对预训练的 LLM 进行微调,该数据集包含来自 StableText2Lego 的文本提示及其对应的乐高结构。


预训练基础模型。本文使用 LLaMA-3.2-1B-Instruct 作为基础模型,如图 5 所示,基础模型可以通过上下文学习生成类似 LEGO 的设计。


然而,生成的设计通常会遗漏某些物体部件,并且包含相交或断开的积木,这使其在物理上不稳定且无法搭建。为了解决这些问题,本文使用数据集进一步微调了预训练模型。



物理稳定性:尽管该模型基于物理稳定性数据进行了训练,但有时生成的设计仍会违反物理和组装约束。为了解决这个问题,该研究进一步将物理稳定性验证纳入自回归推理中。


如果乐高结构在底板上搭建时不会倒塌,则该结构被认为是物理稳定的且可搭建的。为此,本文使用稳定性分析方法评估物理结构稳定性。图 4 (a) 展示了施加在单个积木上的所有可能力。



LEGOGPT 推理算法如下:



乐高纹理和着色:颜色和纹理在创意乐高设计中也起着至关重要的作用。因此,本文提出了一种应用精细 UV 纹理或为单个积木分配统一颜色的方法。


实验


图 5 展示了一系列多样化、高品质的 LEGO 设计,这些设计紧密遵循输入提示。


本文选取 LLaMAMesh 、LGM、XCube 和 Hunyuan3D-2 作为基线方法。如表 1 所示,本方法在所有指标上均超越基线方法。图 5 直观展示了本方法生成的乐高结构质量显著优于基线方案。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


这个问题很有意思!如果输入的数据集里没有的东西,LEGOGPT 的表现可能会比较挣扎。毕竟它是基于现有数据学习的,遇到没见过的东西,可能就只能“自由发挥”了。但这种“自由发挥”也可能有意想不到的惊喜,说不定能生成一些超现实主义的乐高作品!

我觉得这就像给乐高模型做“压力测试”。现在的LEGOGPT就像一个只会纸上谈兵的设计师,它设计的模型可能在虚拟世界里很完美,但到了现实世界,稍微一碰就散架了。要让它设计的模型更靠谱,就得让它多经历一些“实战”,比如让它模拟各种外力作用,看看哪些地方容易出问题,然后不断改进。只有经历过风雨,才能见到彩虹嘛!

从结构力学的角度看,LEGOGPT 目前可能只考虑了静态平衡,没有考虑动态平衡。要提高抗外力能力,可以:

* 引入有限元分析: 在设计过程中进行有限元分析,模拟乐高模型在不同外力作用下的受力情况。
* 优化连接方式: 采用更稳固的连接方式,例如增加连接点、使用更坚固的积木等。
* 加入缓冲结构: 在关键部位加入缓冲结构,吸收外力冲击。

当然,这也需要更多的数据和算法支持。

尺寸变大,复杂度肯定呈指数级增长!首先,计算量会大很多,模型训练和推理都需要更强的算力。其次,物理稳定性验证会更复杂,毕竟结构越大,就越容易出现不稳定因素。最后,乐高积木的种类和数量也会限制模型的发挥,得考虑如何更有效地利用现有积木搭建更大的模型。

从工程角度来分析,扩大尺寸会带来以下挑战:

* 内存消耗: 更大的尺寸意味着需要处理更多的数据,对内存的需求也会增加。
* 计算复杂度: 物理稳定性验证的计算复杂度会随着尺寸的增加而增加,可能需要更高效的算法。
* 模型训练: 训练更大尺寸的乐高模型需要更大的数据集和更长的训练时间。

此外,可能还需要考虑乐高积木的物理限制,例如最大长度、连接方式等。

从技术角度看,这涉及到模型的泛化能力。如果输入是 Out-of-Distribution 的数据,模型可能会出现以下问题:

* 生成质量下降: 模型可能无法准确理解抽象概念,导致生成的乐高模型与预期相差甚远。
* 结构不稳定: 为了满足抽象概念,模型可能会生成一些在物理上不可行的结构,例如悬空、不平衡等。
* 风格不一致: 生成的乐高模型可能与训练数据的风格不一致,例如颜色、纹理等。

当然,这也可以作为模型的一个探索方向,让AI理解抽象概念,生成更有创意的设计。

我觉得就像盖房子一样,盖小房子容易,盖摩天大楼就难了。除了技术上的挑战,还得考虑材料的限制。乐高积木就那么几种,要用有限的积木搭出更大的模型,就像用同样的砖头盖更大的房子,需要更巧妙的设计和更合理的结构。说不定以后乐高公司会专门为 LEGOGPT 定制一批新的积木呢!

我觉得这就像让一个只会画风景画的画家去画抽象画。他可能还是会用画风景画的技巧,但结果可能就变成“风景画式的抽象画”,也就是带着既有风格的创新。所以,LEGOGPT 可能会把抽象的概念“具象化”,用它熟悉的乐高积木搭出一个它理解的抽象概念。结果可能很有趣,也可能完全get不到点,但这就是AI艺术的魅力啊!

这个角度提得好!感觉可以让 LEGOGPT 参加乐高版的“地震模拟测试”了!现在的模型可能只是静态稳定,遇到外力就不行了。要进一步优化,可以考虑加入一些力学模拟,让模型在设计阶段就考虑到抗震、抗冲击等因素。让 AI 设计的乐高模型不仅好看,还要“结实耐用”!