GigaBrain-0.5M*:基于世界模型的具身智能新范式,多项机器人任务实现突破

极佳视界发布GigaBrain-0.5M*,基于世界模型的新一代具身智能,实现机器人长时间稳定运行,并在多项任务中取得突破,具有强大的泛化能力。

原文标题:世界模型原生新一代范式!极佳视界斩获全球第一后,GigaBrain-0.5M*再进化

原文作者:机器之心

冷月清谈:

极佳视界发布了新一代具身世界模型 GigaBrain-0.5M*,这款模型在多个真实机器人任务中表现出色,能够长时间稳定运行且零失误。GigaBrain-0.5M* 采用了世界模型条件驱动的 VLA 大模型架构,通过预测未来状态和价值来提升鲁棒性,并创新性地引入人在回路持续学习机制,通过真实环境的交互反馈不断优化决策策略,实现自主迭代升级。与传统方法相比,GigaBrain-0.5M* 在任务成功率和策略鲁棒性方面均有显著提升,尤其是在高难度长时程任务中表现优异。该模型基于大量的机器人操作数据进行预训练,并通过合成数据增强了在复杂场景中的泛化能力,为具身智能走向开放世界奠定了基础。

怜星夜思:

1、GigaBrain-0.5M* 引入的「人在回路」学习机制,在实际应用中会遇到哪些挑战?如何保证人工干预的有效性和效率?
2、文章提到 GigaBrain-0.5M* 使用 GigaWorld 合成数据来突破真实数据采集的瓶颈,这种方法有哪些优势和局限性?在哪些场景下合成数据可能无法替代真实数据?
3、GigaBrain-0.5M* 在折纸盒、冲煮咖啡等任务中表现出色,这些技能迁移到其他领域的机器人应用,例如医疗、农业等,还面临哪些挑战?需要克服哪些技术难题?

原文内容

图片
机器之心发布

具身世界模型新一代原生范式重磅登场!继具身基础模型 GigaBrain-0.1 斩获 RoboChallenge 全球第一后,性能更强大的 GigaBrain-0.5M* 又来了。



作为依托世界模型实现自我进化VLA 大模型,GigaBrain-0.5M* 在家庭叠衣、服务冲煮咖啡、工业折纸盒等多个真实机器人任务中,均实现数小时零失误、持续稳定运转



GigaBrain-0.5M* 作为一款基于世界模型条件驱动(World Model-Conditioned)的 VLA 大模型,以世界模型对未来状态与价值的预测结果作为条件输入,可显著提升模型在长时程任务中的鲁棒性。


在此基础上,GigaBrain-0.5M* 创新引入人在回路(Human-in-the-Loop)持续学习机制,系统依托经人工筛选与校正的模型推演轨迹开展迭代训练,基于真实环境交互反馈持续优化决策策略,最终实现「行动 — 反思 — 进化」的闭环式持续学习与自主迭代升级



  • 论文链接:https://arxiv.org/pdf/2602.12099

  • 项目链接:https://gigabrain05m.github.io/


01 

基于世界模型的强化学习训练范式


在 GigaBrain-0.5M* 的研发中,极佳视界提出基于世界模型的强化学习范式,并采用迭代式四阶段闭环训练流程


  • 基于大规模机器人操作数据完成世界模型预训练,实现对未来状态及对应价值的精准预测;

  • 以世界模型输出的未来状态预测与价值评估为条件,对策略网络进行微调,以指引动作决策;

  • 将条件化策略部署至真实物理环境,依托人在环干预机制,采集模型自主推演轨迹数据;

  • 利用经筛选后的有效轨迹数据集,联合优化世界模型与决策策略,实现模型持续学习与自主进化。



02

数小时连续零失误执行


在与 AWR、RECAP 等主流模仿学习与强化学习基线方法的系统对比中,GigaBrain-0.5M* 展现出显著优势,在相同任务设定下,相较于由 π*0.6 由所提出的 RECAP 基线,任务成功率提升近 30%,并实现了稳定可靠的模型效果。


尤其在高难度长时程任务中,面对折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的复杂场景,GigaBrain‑0.5M* 均实现接近 100% 的任务成功率,并可稳定复现成功执行轨迹,充分彰显出卓越的策略鲁棒性。






03

高效且准确的价值预测


实验结果表明,基于世界模型的价值预测方案在执行效率与预测精度上,均优于 π*0.6 所提出的 VLM 方案。该方案的核心优势源自对未来状态的显式建模与世界模型单步降噪机制,可为价值函数提供关键的时序上下文支撑,让价值估计实现更高效、更精准、更稳定的输出。


以叠衣服任务为例:任务初期,机械臂反复调整衣物姿态时,预测价值呈现合理波动;当衣物摆正、进入稳定叠放阶段,价值曲线稳步上升;若中途出现干扰物,价值骤降以反映任务受阻;待干扰物被移除后,价值迅速恢复增长趋势。这种与任务物理进程高度对齐的价值演化,正是世界模型提供「认知先验」的直接体现。




04

上万小时的训练数据


GigaBrain-0.5M* 的基座模型 GigaBrain-0.5 基于总计 10,931 小时的多样化机器人操作数据进行预训练,其中 61%(6,653 小时)由自研具身世界模型 GigaWorld 高保真合成,覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景;剩余 39%(4,278 小时)源自真实机器人采集,确保策略在物理世界中的可执行性。


海量数据的引入显著拓展了模型的任务覆盖广度与策略鲁棒性,使其在面对复杂、长时程操作任务时具备更强的泛化能力;而 GigaWorld 生成的合成数据则有效突破了真实采集的长尾瓶颈。通过可控地生成新纹理、新物体位姿与新观测视角下的训练样本,增强了模型在分布外场景中的适应性,为具身智能走向开放世界奠定了数据基石。



公司及团队介绍


极佳视界是一家具身智能和通用机器人公司,围绕「基模 - 本体 - 场景」三位一体,为工业、商业、家庭等场景提供软硬一体的具身智能机器人解决方案,推动通用机器人服务千行百业、走进千家万户。


公司核心团队包括清华、北大、中科院、中科大、WashU、CMU 等全球知名院校顶尖研究人员,以及来自微软、三星、地平线、百度、博世等全球知名企业高管,核心团队在物理 AI 方向兼具业内领先的研究能力和大规模的产业落地经验


极佳视界是国内第一家布局世界模型的科技公司,以世界模型平台 GigaWorld、通用具身大脑 GigaBrain、原生本体 Maker 构建闭环生态,致力实现 10-100 倍以上的数据、训练、测试全链路效率提升,推动通用具身智能机器人、通用自动驾驶等物理 AGI 大规模爆发。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我理解这里面其实有个trade off,合成数据可以无限量生成,但是质量很难保证;真实数据质量高,但是采集成本太高。文中提到GigaWorld可以进行纹理迁移、视角变换等等,这些都是缩小gap的手段。我觉得未来可以研究一下如何自动评估合成数据的质量,然后根据质量动态调整合成数据和真实数据的使用比例。

能完成折纸盒和冲咖啡,确实很厉害了,但离通用机器人还差远了。你想想,通用机器人要能适应各种各样的环境,完成各种各样的任务,这需要极强的泛化能力和适应能力。现在的机器人,换个场景可能就不行了。我觉得最大的难点在于感知和决策。如何让机器人像人一样理解环境,并做出合理的决策,这需要突破性的进展。

关于合成数据,我想从两个方面来谈谈:

* 合成数据的作用:可以低成本、大规模地生成训练数据,尤其是在真实数据难以获取或者标注成本高昂的情况下。同时,合成数据可以灵活控制数据的分布,弥补真实数据的不足。
* 保证合成数据质量的方法:需要精细设计合成数据的生成过程,例如物理引擎的精度、纹理的真实度、光照的合理性等。同时,需要对合成数据进行筛选和过滤,去除噪声数据,并采用迁移学习等方法,将模型从合成数据迁移到真实数据。

总之,合成数据是机器人学习的重要手段,但需要谨慎使用,才能发挥其优势,避免其劣势。

我理解合成数据的作用是“预训练”。就像我们人类在学习新技能之前,会先看一些相关的书籍或者视频。这些书籍和视频就是合成数据。

如何保证合成数据的质量?我觉得可以从以下几个方面入手:

1. 数据生成:使用高质量的物理引擎和渲染引擎,尽可能模拟真实世界的物理规律和视觉效果。
2. 数据增强:对合成数据进行各种增强操作,例如旋转、缩放、裁剪、颜色变换等,增加数据的多样性。
3. 数据验证:使用真实数据对合成数据进行验证,确保合成数据的分布与真实数据相似。
4. 迭代优化:根据模型的训练效果,不断优化合成数据的生成策略。

别看它现在能叠衣服、煮咖啡,真要搬到医疗、农业这些领域,那挑战可大了去了。首先,环境差异巨大,医院、农田可比实验室复杂多了;其次,任务要求更高,医疗需要精准,农业需要适应性,不是简单重复动作就能搞定的;最后,伦理和安全问题也得考虑,机器人动刀子、摘果子,可不能出一点差错。所以,路还长着呢!

我觉得迁移到其他领域的核心挑战在于通用性(Generality)和适应性(Adaptability)。目前GigaBrain-0.5M* 在特定任务上表现很好,但要应对不同领域的复杂环境和多样化任务,需要解决以下问题:

1. 环境感知问题: 医疗和农业环境的感知难度远高于家庭环境,需要更强大的传感器和感知算法。
2. 任务规划问题: 不同领域的任务具有不同的约束和目标,需要更灵活的任务规划和决策能力。
3. 人机交互问题: 在医疗和农业领域,机器人需要与人类专家进行更紧密的协作,需要更自然、更可靠的人机交互方式。

总而言之,要实现跨领域的机器人应用,需要不断提升机器人的通用性和适应性,使其能够像人类一样灵活地学习和适应新的环境和任务。

人在回路,听起来高大上,实际挑战还真不少。比如,人类专家水平参差不齐,干预质量怎么保证?还有,人总会疲劳出错,怎么避免引入偏见?最后,大规模应用时,人的成本可是大头,怎么提高效率,降低对人工干预的依赖?毕竟,AI最终目标还是自主智能嘛!

「人在回路」这个概念很有意思,让我想到了主动学习。个人觉得挑战主要在以下几个方面:1. 如何设计有效的反馈机制,让人类能够快速、准确地对机器人的行为进行评价和指导。2. 如何平衡人类干预的频率和机器自主学习的能力,避免过度干预导致机器人失去自主性。3. 如何处理人类反馈中的噪声和不一致性,提高模型的鲁棒性。可以考虑引入一些主动学习的策略,例如不确定性采样、查询委员会等,来提高人工干预的效率。

挑战肯定是有的,最大的问题是如何量化人的经验和知识。感觉可以从以下几个方面入手:

1. 建立标准化的人工干预流程: 这就像是给医生制定手术规范一样,确保每次干预都是高质量的。
2. 开发用户友好的干预界面: 让人能够轻松地理解机器人的状态和意图,并进行有效的指导。
3. 引入自动化工具辅助人工干预: 例如,可以使用AI模型来预测人类专家的反馈,并提前进行预处理,从而提高干预效率。

合成数据最大的优势就是便宜且量大管饱,而且可以针对性地生成特定场景的数据,这在真实数据难以获取的情况下简直是救命稻草。但问题也很明显,再逼真的合成数据也无法完全模拟真实世界的复杂性和随机性。在需要极高真实性的场景,比如涉及到安全攸关的应用,或者需要处理极端异常情况的应用,合成数据就可能显得力不从心。说白了,合成数据只能作为一种辅助手段,真实数据才是王道。

合成数据是个好东西,解决了数据荒的问题。但它也有局限性,就是和真实数据之间总有gap。比如,光照、纹理、物理特性啥的,模拟得再好也不可能完全一样。在需要高精度、高可靠性的场景,比如自动驾驶,合成数据可能就力不从心了。毕竟,谁也不想看到因为合成数据没考虑到的情况导致车祸吧?

合成数据用好了是神器,用不好是陷阱。优势在于成本低、可控性强、可以覆盖corner cases。但局限性也很明显:1. 真实度问题(Reality Gap): 合成环境很难完全模拟真实世界的复杂性,导致模型在真实环境中的表现下降。 2. 标注偏差(Annotation Bias): 合成数据的标注往往是完美的,但在真实数据中,标注可能存在误差,模型容易对标注偏差产生过拟合。在一些对细节感知要求极高的场景,例如医学影像分析、精密制造等,合成数据可能难以满足需求。

看到这个问题,我第一时间想到的是数据鸿沟。虽然GigaBrain-0.5M* 在特定任务上表现出色,但这些任务的数据集与医疗、农业等领域的数据集差异巨大。直接迁移模型可能会面临性能下降的问题。另外,安全性和可靠性也是关键。在医疗领域,任何微小的失误都可能造成严重的后果。因此,需要对机器人的决策和行为进行严格的验证和测试。此外,伦理问题也不容忽视。例如,在农业领域,机器人是否会取代人类劳动力?这些都是需要认真思考的问题。