智源发布RoboOS与RoboBrain:突破机器人协作壁垒,迈向群体智能

智源发布RoboOS与RoboBrain,实现跨场景多任务轻量化部署与跨本体协作,推动单机智能迈向群体智能,加速具身智能场景应用。

原文标题:一脑多机!智源的新发布,让不同机器人轻松协作

原文作者:机器之心

冷月清谈:

智源研究院发布了跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,旨在解决异构机器人之间的协作难题,推动机器人从单机智能向群体智能发展。RoboBrain融合了任务规划、可操作区域感知和轨迹预测能力,增强了机器人在复杂环境中的长程操作能力。RoboOS基于“大脑-小脑”分层架构,实现了具身大脑和执行模块的“即插即用”,支持多种类型的机器人本体。通过共享记忆系统和动态任务管理,RoboOS实现了跨本体协作控制和高并发任务调度,并通过执行反馈动态调整策略,优化任务规划。该框架具备高度的扩展性和可迁移性,为具身智能的规模化部署和生态构建奠定了基础,为服务机器人、工业自动化、智慧物流、智能制造等领域提供底层技术支持。

怜星夜思:

1、RoboOS 和 RoboBrain 的发布,对于目前机器人行业来说,最大的意义是什么?除了文章中提到的应用领域,你觉得在哪些其他场景有应用潜力?
2、RoboBrain 大脑和小脑的分层架构,这种设计思路在其他领域中有没有类似的应用?你觉得这种架构的优势和局限性分别是什么?
3、RoboOS 提到了“共享记忆系统”,这个概念在多机器人协同中非常重要。你认为如何保证共享记忆的准确性和实时性?如果出现错误或冲突,应该如何解决?

原文内容

机器之心发布

机器之心编辑部


3 月 29 日,智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。  


开源链接如下:


具身多模态大脑模型 RoboBrain


  • GitHub:https://github.com/FlagOpen/RoboBrain

  • Gitee:https://gitee.com/flagopen/robo-brain

  • Huggingface:https://huggingface.co/BAAI/RoboBrain


为机器人操作任务设计的高质量异构数据集 ShareRobot


  • GitHub:https://github.com/FlagOpen/ShareRobot

  • Gitee:https://gitee.com/flagopen/share-robot

  • Huggingface:https://huggingface.co/datasets/BAAI/ShareRobot


增强长程操作任务能力

打造感知 - 认知 - 决策 - 行动闭环



在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。具身大脑 RoboBrain 融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。


RoboBrain 由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的 A-LoRA 模块和用于轨迹预测的 T-LoRA 模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。RoboBrain 采用多阶段训练策略,使其具备长历史帧记忆和高分辨率图像感知能力,进而提升场景感知和操作规划的能力。


RoboBrain 在任务规划、可操作区域感知和轨迹预测评测任务中均表现出卓越性能。


任务规划方面,RoboBrain 在不牺牲通用能力的前提下,在机器人规划评测集 OpenEQA、ShareRobot(自建)和 RoboVQA 上多个维度优于 GPT-4V、Claude3 等 6 个当时领先的闭源 / 开源 MLLMs。


RoboBrain 在具身规划评测基准上的性能


可操作区域感知方面,RoboBrain 在 AGD20K 测试集上的平均精度超过了当时最先进的开源模型 Qwen2-VL,验证了其在指令理解和物体属性方面的卓越能力。


RoboBrain 在可操作区域感知基准上的性能


轨迹预测方面,RoboBrain 预测的操作轨迹具有与真实轨迹较高的相似度,展现了其在轨迹预测中的高精度和稳定性。RoboBrain 的未来迭代版本会持续提高轨迹预测的能力。


RoboBrain 在轨迹预测基准上的性能


目前,RoboBrain 能够解读人类指令和视觉图像,以生成基于实时图像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区域。具体而言,RoboBrain 能够有效利用环境信息和交互对象的状态 —— 无论是从第一人称还是第三人称视角捕捉的图像 —— 生成针对不同类型机器人操作任务的任务规划,并基于人类指令和视觉信息,提供合理的可操作区域,并能在不同场景中表现出良好的泛化能力,生成既可行又合理的轨迹。



具身大脑 RoboBrain、小脑技能库以及跨机器人数据中枢,是跨本体框架 RoboOS 的核心要素。具身大脑 RoboBrain,负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制;小脑技能库,负责低延迟精准执行,实现柔性与精密操作等;跨机器人数据中枢,负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知 - 认知 - 决策 - 行动的闭环。


一脑多机实现跨本体协作

从单体智能迈向群体智能


跨本体具身大小脑协作框架 RoboOS,基于 “大脑-小脑” 分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。  


在 RoboOS 的分层架构下,具身大脑 RoboBrain 的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大脑模型(如 LLM/VLM)与小脑技能(如抓取、导航)的 “即插即用”,目前,可支持松灵双臂、睿尔曼单 / 双臂、智元人形、宇树人形等不同类型的具身本体。  


通过共享记忆系统(空间记忆 / 时间记忆 / 本体记忆),实现多个机器人之间的状态同步与智能协作,突破传统 “信息孤岛” 限制,实现跨本体协作控制。


RoboOS 可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。


此外,RoboOS 可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。


基于 RoboOS 及 RoboBrain 的多机器人跨本体协作递送任务 Demo


在 “递送苹果和水果刀” 的任务场景中,基于 RoboOS 及 RoboBrain,睿尔曼单臂机器人(转运)、宇树人形 G1(挑拣水果)、松灵双臂机器人(挑拣水果刀)分工协作。


整体任务流程是睿尔曼调用 “导航技能” 移动至餐桌前,宇树 G1 调用 “视觉抓取技能” 完成指定物体的挑拣,睿尔曼调用 “抓取技能” 提起果篮并导航至松灵餐桌前。紧接着,松灵调用 “抓取技能” 获取水果刀,并放置在果篮中心,睿尔曼依据 “空间记忆” 导航至办公桌位置,递送果篮后返回待命。


RoboOS 接收 “拿离杯子最近的水果,并递送一把水果刀” 指令后,递送 RoboBrain 进行任务拆解,并将拆解后的子任务分发给 3 台跨本体机器人。RoboBrain 通过 "空间记忆" 感知环境,确定果篮、苹果位置,并拆解任务为 “宇树 G1 挑拣苹果→睿尔曼传递果篮→松灵机器人抓取水果刀→睿尔曼返回”。


各机器人本体执行子任务过程中,由 RoboOS 提供端云协作能力,将任务规划为技能粒度,实现云端 RoboBrain 分发规划,端侧执行技能并实时反馈。RoboBrain 识别 “离杯子最近的水果位置”、“果篮抓取位置 affordance”、“水果刀抓取位置 affordance”、“果篮空闲位置 Pointing”,经由 RoboOS 递送指导各机器人本体完成任务


“即插即用” 快速轻量化泛化部署

打造统一生态


RoboOS 作为面向多机器人系统的跨本体具身大小脑协作框架,专为解决当前具身智能落地过程中的通用性适配与多机调度难题而设计。针对异构本体难以统一接入、任务调度效率低、缺乏动态错误反馈机制等痛点,基于 RoboOS 的 “大小脑协同” 的架构范式,云端的具身大脑 RoboBrain 负责统一的任务理解、规划决策与上下文感知,本体侧则接入轻量级的小脑执行模块,实现感知 - 认知 - 决策 - 行动的闭环协作。


该机制能够动态感知本体差异、灵活适配操作指令、自动修复异常行为,有效提升系统在复杂任务场景下的鲁棒性与泛化性。RoboOS 原生支持异构机器人本体的灵活接入,以 Profile 模板机制快速完成机器人能力建模与适配。


本体的小脑模块可调用包括开源技能库、自研低阶控制器等多种技能接口,形成一个支持模块复用、即插即用的运行体系,大幅降低开发门槛与接入成本。


在云端,RoboOS 提供完备的模型适配与 API 接入能力,兼容自研的多模态 VLM,作为可插拔的大脑决策引擎,从而在服务机器人、工业自动化、智慧物流、智能制造等领域支撑复杂任务的多机协作需求。


借助 RoboOS 的端云一体化协同能力与动态调度机制,整个系统不仅具备高度的扩展性与可迁移性,更为未来具身智能的规模部署与生态构建奠定了通用操作系统级的基础。



RoboOS 基于智源研究院研发的并行训练与推理框架 FlagScale,原生支持多机器人系统的端云协同能力,打造具身智能的统一底座。系统在设计上充分考虑 “多机器人 - 多模态 - 多任务” 场景,具备极高的可扩展性与低时延响应能力。


在端侧部署中,机器人注册即可自动与云端部署的 RoboBrain 大脑建立双向通信链路,通过高效发布 - 订阅机制实现实时任务调度与状态反馈,指令响应延迟低于 10ms,满足复杂动态任务的闭环控制需求。


面向机器人在长期运行中产生的海量感知与行为数据,RoboOS 提供基于内存优化的数据访问引擎,支持 TB 级别历史数据的内存随机访问能力,为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。结合 RoboBrain 的任务推理与策略优化模块,历史数据还可用于多机之间的协作知识共享,实现更强的智能演化与自主学习能力。


此外,FlagScale 作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。


目前,智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究。


此次智源研究院发布的跨本体具身大小脑协作框架 RoboOS 及开源具身大脑 RoboBrain,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。


开放、协作、共享,是具身智能生态繁荣的必经之路,智源研究院愿携手更多产业合作伙伴,共绘具身智能生态蓝图。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

大脑和小脑的分层架构,有点像计算机系统里的CPU和GPU。CPU负责通用计算和逻辑控制,GPU负责并行计算和图像处理。这种分工协作的方式,可以提高整体的运算效率。优势在于可以充分发挥不同模块的特长,提高系统的灵活性和可扩展性。但局限性在于,如果大脑和小脑之间的通信效率不高,或者分工不明确,反而会降低系统的性能。

确保共享记忆的准确性和实时性,我觉得可以从以下几个方面入手:一是使用可靠的传感器和数据传输技术,减少数据误差;二是建立完善的数据验证和纠错机制,及时发现和纠正错误;三是采用分布式存储和计算架构,提高系统的容错性和可扩展性。如果出现错误或冲突,可以引入仲裁机制,由一个“裁判”来决定最终的结果。当然,这个“裁判”可以是人,也可以是算法。

抛开那些高大上的理论,我觉得这种架构就像一个团队。大脑是领导,负责指挥方向;小脑是员工,负责执行任务。领导要足够聪明,能制定合理的计划;员工要足够高效,能把计划落地。如果领导只会瞎指挥,或者员工只会蛮干,那这个团队肯定不行。最重要的还是团队协作,互相配合,才能把事情做好。

共享记忆这东西,听起来挺玄乎的。我觉得最重要的还是要有标准,就像大家说同一种语言一样。如果每个机器人都用自己的“方言”,那肯定没法交流。所以,要制定统一的数据格式、通信协议和行为规范,让每个机器人都能理解和执行。至于错误和冲突,我觉得可以引入“投票”机制,少数服从多数,这样可以避免个别机器人的错误影响整体。

共享记忆的准确性和实时性,本质上是一个数据一致性问题。在分布式系统中,有很多成熟的解决方案,比如Paxos、Raft等共识算法。这些算法可以保证在多个节点之间数据的一致性。当然,这些算法的实现都比较复杂,需要仔细研究。另外,还可以引入时间戳机制,记录每个数据的产生时间,以便于追踪和回溯。

谢邀,人在工地,刚下挖掘机。我觉得这玩意儿要是能用在建筑工地上,那可太棒了!现在工地上的活儿,很多都需要人来干,又脏又累。有了RoboOS这种东西,让不同的机器人协同工作,比如一个负责搬砖,一个负责砌墙,效率肯定能提高不少。而且现在人口红利慢慢消失,用机器人替代人工是大势所趋啊!

从技术角度看,RoboOS和RoboBrain的发布,意味着具身智能领域在模块化和标准化方面迈出了重要一步。这种“即插即用”的模式,可以加速机器人技术的创新和落地。除了文章提到的领域,我认为在医疗领域也有很大的潜力,比如远程手术机器人,需要多个机器人协同完成精细的操作。另外,在教育领域,可以通过RoboOS和RoboBrain搭建一个机器人实验平台,让学生更直观地了解人工智能和机器人技术。

其实这种分层架构在生物学中很常见,比如人的神经系统,大脑负责高级认知功能,脊髓负责反射动作。在企业管理中也有类似的应用,高层负责战略规划,基层负责具体执行。这种架构的优势在于可以提高决策效率和执行力,但需要注意的是,不同层级之间的信息同步和沟通非常重要,否则容易出现偏差。

我觉得最大的意义在于它提供了一个相对通用的协作框架,降低了不同类型机器人之间协作的门槛。以前大家都是各自为战,现在有了个统一的“语言”,就能更好地发挥群体智能的优势。至于应用场景,我觉得像灾难救援、深海探索这种复杂、高危的环境,多机器人协同作业能大大提高效率和安全性。农业也很有潜力,比如无人农场里,不同机器人分别负责播种、施肥、收割,想想就觉得很科幻!