RoboRefer:提升机器人空间理解与推理能力的多模态大模型

RoboRefer:创新模型助力机器人理解并推理复杂三维空间指令,实现开放世界精准操作,让机器人在真实世界中更智能。

原文标题:复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

原文作者:机器之心

冷月清谈:

在机器人走出实验室、进入真实世界的过程中,理解和执行复杂的空间指令是一个核心难题。当前的多模态大模型在面对杂乱无序的开放世界环境时,仍难以准确识别物体空间属性、关系,并进行多步动态推理。北京航空航天大学、北京大学与北京智源人工智能研究院联合提出了 **RoboRefer** 模型,旨在解决这一挑战。

RoboRefer是一个具备三维空间理解与推理能力的多模态大模型,它集成了独立的图像编码器和深度图编码器,不仅能回答定量和定性空间感知问题,更能在复杂空间关系约束下,进行组合式推理并精准定位交互位置。例如,它能理解并执行“把这个物体放在笔筒和键盘的中间,水瓶的logo要正对着你”这类复杂指令。

其核心创新在于采用了全参数微调(SFT)提升单步空间感知能力,并引入基于强化学习微调(RFT),特别是创新性地设计了基于过程的奖励函数,而非仅仅结果导向,显著提升了模型的多步推理精度和泛化能力,实现了开放世界的空间指代。

为支持模型训练,研究团队构建了大规模、高质量的 **RefSpatial 数据集**,该数据集拥有精细的层级式标注、详细的多步推理过程、严格的质量筛选、庞大的样本量(250万样本、2000万问答对)、丰富的室内外场景,并覆盖31种空间关系,极大地提升了数据的多样性和复杂性。

在性能方面,SFT训练的RoboRefer在空间理解任务中达到了89.6%的平均成功率。RFT训练后的RoboRefer在研究者提出的高难度RefSpatial-Bench评测基准上,表现显著领先,比Gemini-2.5-Pro高出17.4%的平均准确率。更重要的是,RoboRefer已成功集成到UR5机械臂和G1仿人机器人等不同平台,验证了其在现实世界中对复杂、动态、多步骤任务的精准执行能力。

怜星夜思:

1、大家伙儿觉得RoboRefer这技术,跟以前那些机器人或者AI比起来,到底牛在哪儿呢?除了跑分高,它在实际应用中和其它模型最大的不同在哪?或者这种“理解+推理”的模式,未来会在哪些领域率先体现出优势?
2、文章里提到他们弄了个特别大规模、高质量的数据集叫RefSpatial。做过数据标注的都知道,要搞这么一个大数据库肯定下了不少功夫吧?这玩意儿对咱搞AI的,有啥大用处?它对推进整个具身智能和多模态大模型领域的发展有什么具体意义?
3、虽然文章里把RoboRefer夸得很厉害,但距离真正的通用机器人、或者科幻电影里那种啥都懂的机器人还有多远啊?比如,万一遇到个完全没见过的东西或者极端环境,它还能保持一样的表现吗?你觉得它目前最大的局限性或者未来可能面临哪些挑战?

原文内容


本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智能和多模态大模型。本文的共一作者兼项目负责人为北京智源研究院研究员迟程。本文的通讯作者为北京航空航天大学副教授盛律和北京大学计算机学院研究员、助理教授仉尚航。


机器人走出实验室、进入真实世界真正可用,远比想象中更复杂。现实环境常常杂乱无序、物体种类繁多、灵活多变,远不像实验室那样干净、单一、可控。


想象一下,你正在餐厅吃饭,身边有个服务机器人。你对它说:把第二列最远的黄色寿司盘,放到离我最近的寿司和酱油碟之间的空位上。(左图)又或者,你希望它拿起最左边、饮料 logo 正对的苹果,放到最近的桌子上,并与之前的苹果排成一排、间距一致。(右图)




这些听起来是我们日常再熟悉不过的指令,其实是一个典型空间指代(Spatial Referring)任务。简单来说,就是让机器人通过最远第二列等间距正对着」这类空间关系,搞清楚要抓哪个对象、放在哪里、或者走向哪个位置。


听着简单,做起来却不容易。哪怕是目前最强大、最先进的多模态大模型,也依然难以准确理解复杂的三维场景,并根据指令动态推理出正确的交互位置。这是因为空间指代任务,背后其实包含了两个维度的挑战


  1. 单步空间理解:机器人得先看懂世界。这要求模型能够准确识别物体的空间属性(比如位置、朝向)以及它们之间的空间关系(比如远近、方向)。这是空间指代任务的基础,大部分研究目前还停留在这一层。

  2. 多步空间推理:真正的挑战来了:面对一连串复杂的空间关系约束,机器人不仅要理解,还要逐步推理、动态判断,灵活应对各种开放世界中各种各样的空间关系组合。这种能力对于实现真正的空间指代至关重要,但目前仍然是一个被严重低估和不足探索的方向


为了破解空间指代的难题,北京航空航天大学、北京大学与北京智源人工智能研究院联合提出了一个具备三维空间理解推理能力的多模态大模型 —— RoboRefer。这个模型不仅通过全参数微调(SFT),实现了对空间信息的精准理解,还通过强化学习微调(RFT),大幅提升了推理与泛化能力,最终实现开放世界的空间指代



  • 论文链接:https://arxiv.org/pdf/2506.04308

  • 论文标题:RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics

  • 项目主页:https://zhoues.github.io/RoboRefer

  • 代码仓库:https://github.com/Zhoues/RoboRefer 

  • 数据链接:https://huggingface.co/datasets/JingkunAn/RefSpatial

  • 评测链接:https://huggingface.co/datasets/BAAI/RefSpatial-Bench


SFT 训练下的 RoboRefer 在空间理解任务中达到了 89.6% 的平均成功率,刷新了当前最先进水平。而在研究者提出的高难度空间指代任务评测基准 RefSpatial-Bench 上,RFT 训练后的 RoboRefer 更是领先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均准确率,优势显著。



更重要的是,RoboRefer 并非纸上谈兵」。它可以灵活集成到不同类型的机器人上,比如 UR5 机械臂、G1 仿人机器人等,实现对现实世界中复杂、动态、多步骤任务的精准执行,真正让机器人听得懂、看得清、动得准


RoboRefer 是什么



RoboRefer 是一个具备三维空间理解与推理能力的多模态大模型,拥有独立的图像编码器和深度图编码器,其不仅能回答各种空间感知类问答,无论是「这个物体离我有多远?」这样的定量问题,还是「哪个物体在左边?」这样的定性问题;更厉害的是,它还能基于多种空间关系(比如物体的位置和朝向),进行复杂的组合式推理,最终准确定位需要交互的位置


比如,面对一个指令:把这个物体放在笔筒和键盘的中间,水瓶的 logo 要正对着你。RoboRefer 不仅能理解这句自然语言的空间逻辑,还能在真实三维场景中,找到唯一正确的位置来完成任务。


RoboRefer 的核心是什么


为什么相较于以往的方法,RoboRefer 不仅可以精确的感知空间,而且又可以根据多个空间关系组合泛化推理出交互的位置呢?其关键因素在于以下几点:


SFT 增强空间感知能力,RFT 搭配过程奖励提升泛化推理能力


当前多模态大模型在 2D 预训练阶段缺乏对空间关系的深入理解,为了提升模型的单步空间理解能力,研究人员引入了一个独立的深度编码器,使模型能够更有效地感知和利用三维信息,并通过全参数微调(SFT)进行训练。


尽管 SFT 使用了各种空间感知和推理数据,但模型更倾向于记忆答案,而不是泛化到新的空间约束条件。为了解决这一问题,研究者进一步引入了基于 GRPO 的强化学习微调。


值得一提的是,团队不仅关注结果导向的奖励(outcome-based reward),还创新性地设计了基于过程的奖励函数(process reward functions),这些函数能够感知中间推理过程的质量,从而提升模型多步空间指代任务中的推理精度。最终,模型增强了显式多步推理能力,实现了开放世界的空间指代任务。


提出 RefSpatial 数据集,教一个多模态大模型从 0 到 1 学会空间指代



为了支持前述的 SFT 和 RFT 训练,研究团队构建了一个大规模、高质量的数据集 ——RefSpatial,具有以下几个核心特点:


  • 精细标注:每个物体都配有层级式描述,从杯子这类种类类别,到像左数第三个杯子最靠近摄像头的杯子这样的精确空间指代,确保在复杂场景中也能清晰用文字表述。

  • 多维推理:数据集不仅标注了目标,还附带详细的多步推理过程(最高有 5 步),为复杂空间指代提供支持。

  • 高质量筛选:数据经过严格筛选,确保标注准确、语义清晰。

  • 规模庞大:共包含 250 万个样本、2000 万个问答对,数据量是同类数据集的两倍。

  • 场景丰富:覆盖室内外环境,涵盖多种日常交互情境,并整合了 31 种空间关系(对比以往最多 15 种)。

  • 易于扩展:支持从多种来源生成空间指代数据,包括 2D 图像、3D 视频(含边界框)和模拟资产,具备高度扩展性。


RoboRefer 到底有多厉害


单步空间理解评测


SFT 训练后的 RoboRefer 在各种空间理解任务中达到了 89.6% 的平均成功率,取得了当前最先进水平。



多步空间指代评测


RFT 训练后的 RoboRefer 在已有的机器人指代榜单上依旧超越现有方法,在研究者们提出的高难度空间指代任务评测基准 RefSpatial-Bench 上,其更是领先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均准确率



下面展示一些 RoboRefer 与其它模型输出结果的可视化样例:



仿真与真机实验


在空间操控的机械臂仿真评测中,RoboRefer 的表现远超现有的视觉 - 语言 - 动作(VLA)系统。不仅在模拟环境中成功率遥遥领先,面对开放世界中的多步推理与复杂指代任务,唯有 RoboRefer 能够完成!




更多的实验结果,可视化展示(包括更多的杂乱场景下的真机 Demo 视频的空间指代结果)详见论文和主页!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

嗨,RoboRefer嘛,说白了就是给机器人开了个‘天眼’,还给它大脑升级了‘空间逻辑芯片’!以前机器人就像个幼儿园小朋友,你让它拿个苹果,它可能就直接拿了。现在它能理解‘把左边那个带着苹果logo的苹果放在最远的桌子上,还要和旁边那几个苹果排整齐距离一样’!这不是智商情商都上线了吗?以后机器人能替我们干更多精细活儿,比如帮你整理凌乱的桌面,或者帮你找藏在角落的遥控器,再也不用担心它‘笨手笨脚’啦!

RefSpatial数据集嘛,听起来就是给机器人的‘百科全书’和‘推理习题集’!想想看,我们人类学东西也得有教材、有练习册,机器也不例外。这个数据集不仅量大管饱,更重要的是它告诉机器‘为什么这么做’,而不是‘就这么做’,里面有推理过程。这不就相当于给机器人‘开智’了吗?有了它,以后咱们的扫地机器人可能不会再‘迷路’在椅子腿中间,服务机器人也能更聪明地帮你找到遗失的物品。它就是未来机器人更智能、更实用化的‘基石’之一!

做过数据标注的就知道,要搞这么大一个数据集,而且还得‘精细标注’到‘层级式描述’和‘多步推理’,这活儿绝不是一般的难!光是收集场景、挑选物体、确保指令多样性,就已经是个大工程了,更别提还得保证标注准确性和语义清晰度。我觉得它最大的作用,就是让咱们这些研究员或者开发者,不用从零开始‘喂’机器人怎么理解世界了。直接用这个数据集训练,就好像给它提前上了个‘精修班’,效率高多了。这玩意儿出来,同行们肯定都馋疯了,毕竟数据就是AI的‘粮食’!

关于RoboRefer的局限性,虽然它在空间理解和推理上取得了显著进步,但在面临的挑战方面,我认为以下几点值得关注:首先是‘泛化能力的天花板’。尽管文章提及其泛化能力强,但这种泛化是否能涵盖所有极端开放世界场景,例如光照剧烈变化、物体高度遮挡、或面对从未见过的、非常规形状的物体时,模型能否依然准确理解并推理?其次是‘实时性与算力消耗’。复杂的多模态大模型在实际机器人部署时,其推理速度和所需的计算资源常常是瓶颈,尤其在需要快速反应的场景。最后是‘伦理与安全性考量’,当机器人理解能力越强,它在执行任务时,如何确保安全边界,避免误操作导致的风险,这不是技术能完全解决的,但需要我们提前思考。

离电影里的机器人?那可真是路漫漫其修远兮!现在这个RoboRefer,我觉得更像是个‘学霸’级的基础软件,能把数学题(空间推理)解得很明白。但电影里的机器人那是有‘灵魂’的,能跟你聊天,能有自己的情绪,还能自己思考要不要执行某些指令。RoboRefer厉害在‘懂’空间,精准操作,但它‘懂不懂’人心,会不会突然自己开挂成为灭霸?这才是更远的挑战,哈哈。开个玩笑,但确实,通用AI的道路还很长,RoboRefer只是在特定领域迈出了坚实的一步。

关于‘RoboRefer到底牛在哪儿’,我觉得最直观的变化是它让机器人‘说话’和‘理解’更像人了。以前你说‘拿那个杯子’,机器人可能就瞎抓一个。现在你能跟它说‘把离我最远那个、手柄朝向外面的杯子,放到书桌中间那个花瓶旁边’,它也能懂。这就不是看个图片找物体那么简单了,而是真的在理解空间逻辑。像送外卖、居家养老这些场景,机器人需要面对各种复杂的家庭或者公共环境,而且指令还很个性化,RoboRefer这种能力就能让它们行动更精准、更少出岔子。

我觉得吧,再牛的AI,现在离‘啥都懂的机器人’那都还差十万八千里呢!RoboRefer虽然能在实验室或者模拟环境里表现很好,但真实世界太复杂了。你让它去我家,我家乱七八糟的,可能有些东西它在训练数据里压根就没见过,或者光线不好,或者指令带着点方言口音,它还能不能‘秒懂’?我看悬。再者,万一它理解错了咋办?比如你说‘把杯子放到‘桌子边缘’,它给我放到桌子‘外面’去了,那不就全洒了吗?精度和容错率,在真实场景里才是王道。

针对第一个关于RoboRefer突破性的问题,我认为其核心亮点在于解决了多模态大模型在复杂三维空间中的“多步空间推理”难题。以往模型大多停留在单步空间理解,RoboRefer通过引入深度编码器结合SFT提升感知,更关键的是利用RFT和过程奖励机制,引导模型进行显式、多步的动态推理。这使得它不仅能识别物体,还能理解复杂逻辑如“第二列最远的XX放到XX和XX中间”,并泛化到开放世界。这种从‘感知’到‘推理’的跃迁,是其超越现有多数方案的关键所在,尤其在需要精细操作和适应新环境的领域,优势会非常明显。

关于RefSpatial数据集的构建难度和价值,从文章描述来看,其核心在于提供了高质量、大规模且包含多步推理过程的标注数据。在具身智能和多模态大模型研究领域,高质量的数据集是推动模型突破的关键瓶颈。RefSpatial通过精细标注和多维推理链条,不仅为RoboRefer的SFT和RFT训练提供了基础,更重要的是,它为领域内其他研究者提供了一个标准化、高难度的评测与训练基准。有了这种‘教科书式’的数据,大家才能更好地训练和比较各自的模型,加速‘机器人理解复杂空间’这个核心难题的攻克,就像有了更精密的地图和更详细的训练手册一样。