蚂蚁开源 LingBot-VLA:基于2万小时真机数据,超越 Pi0.5 的具身智能基座模型

蚂蚁灵波开源 LingBot-VLA 具身智能基座模型,基于 20000 小时真实数据训练,性能超越 Pi0.5,为具身智能发展提供新标杆。

原文标题:蚂蚁出手VLA,就是开源超越Pi0.5的基座模型

原文作者:机器之心

冷月清谈:

蚂蚁灵波开源了具身智能基座模型 LingBot-VLA,该模型基于约 20000 小时的真实世界机器人数据进行预训练,并在包含 100 多项任务的真机评测基准 GM-100 上表现超越了 Pi0.5,成为新的开源标杆。

LingBot-VLA 的突破在于其在模型架构、数据规模和训练效率上的提升:

1. **数据方面**,它利用来自 9 种不同构型双臂机器人的海量数据,打破了传统上不同机器人数据难以统一利用的瓶颈。
2. **架构方面**,它采用了 Mixture-of-Transformers 架构,将视觉语言模型与动作专家有机结合,提升了复杂操作的控制稳定性,并融合了基于视觉蒸馏的深度信息,增强了空间感知能力。
3. **效率方面**,LingBot-VLA 展现出更高的数据利用效率和算力效率,能够以更低的成本和更短的周期完成模型迭代。

LingBot-VLA 的开源,为具身智能领域的发展提供了一个新的起点,验证了通过扩展真实数据实现更强泛化的可行性,同时,也为 VLA 模型未来与世界模型的深度融合奠定了基础。

怜星夜思:

1、LingBot-VLA 取得的突破,对人形机器人走进家庭生活有多大推动作用?
2、LingBot-VLA 使用了大量的真实世界数据进行训练,那么在实际应用中,如何保证模型应对用户行为带来的数据偏差,避免出现“用着用着就变傻”的情况?
3、蚂蚁选择开源 LingBot-VLA,对具身智能领域会产生什么影响?对于其他公司来说,是机遇还是挑战?

原文内容

图片
编辑|张倩


一个机器人到底需要多「聪明」,你才愿意把它请进家门?


前段时间,明星具身智能公司 1X 开始预售其人形机器人 Neo。演示视频中,它能从冰箱取水、叠衣服、把餐具放进洗碗机,俨然一个称职的家务助手。


但问题是,它当时真正能自主完成的,也只有这几件事。至于更多样的日常任务 —— 比如整理散落的玩具、擦拭台面、收纳杂物 —— 在现阶段,大多仍需要工程师远程教学。


这就多少有些令人迟疑:花费近 14 万元,迎来的不仅是一个「助手」,还可能是一双需要你授权进入家庭隐私空间的「眼睛」。社交网络上,不少人也对这种「半成品智能」表达了困惑甚至调侃。



这种「演示场景自主、真实任务依赖人工」的割裂状态,恰恰映射出当前具身智能落地的核心挑战:泛化能力不足


要突破这一瓶颈,业界共识是:需要更大规模、更多样化的真实机器人数据来「喂养」模型,使其学习到更本质的任务理解与动作泛化能力。然而,高质量真机数据的采集成本极高,且不同构型机器人的数据难以复用,导致大多数模型仍只能在有限数据或仿真环境中训练,难以实现真正的跨任务、跨本体泛化。


在这一背景下,蚂蚁灵波开源发布的第一款具身智能基座模型 LingBot-VLA 带来了一个好消息:它基于约 20000 小时、覆盖 9 种主流双臂机器人构型的真实世界数据预训练而成,在涵盖 100 多项任务的统一真机评测基准下整体表现超越 Pi0.5,成为了能够跨本体、跨场景泛化的开源具身基座模型新标杆。



这一超越并非偶然,而是源于 LingBot-VLA 在模型架构、数据规模与训练效率上的系统性突破。在最新的技术报告中,我们可以看到相关细节。而且,蚂蚁灵波还开源了相应的模型权重、代码、后训练工具链,确保开发者不仅能拿到模型,还能把模型调得更好。



  • 项目链接:https://technology.robbyant.com/lingbot-vla

  • 技术报告链接:https://arxiv.org/pdf/2601.18692

  • 模型下载链接:https://huggingface.co/collections/robbyant/lingbot-vla

  • 代码、后训练工具链链接:https://github.com/robbyant/lingbot-vla                       魔搭社区:https://www.modelscope.cn/collections/Robbyant/LingBot-VLA


看来,在具身智能这个领域,通过大规模扩展真实数据驱动模型泛化,已从技术愿景走向工程现实。


超越 Pi0.5,意味着什么?


在 LingBot-VLA 出现之前,Physical Intelligence 开源的 Pi0.5 几乎是行业内无法绕开的标杆。


为什么它有这么强的统治力?根本原因在于,Pi0.5 首次在开源世界里证明了:一个模型,不需要针对特定场景专门训练,就能在完全陌生的真实家庭环境中,完成长达 10-15 分钟的复杂操作链条。这件事让行业第一次清晰地看到,具身智能并非只能在「摆拍式」的单一任务中工作,而是有可能真正进入非结构化、充满不确定性的真实生活场景,完成从「实验室奇观」到「规模化产品」的过渡


所以无论是学术论文里的对比实验,还是产业界的模型选型,Pi0.5 都是那个「必须要放进去比一比」的对象。也因为有这么一个「扛把子」的开源模型存在,很多机器人公司并不直接从零训练模型,而是选择在 Pi0.5 的基础上进行微调,再部署到自己的机器人本体上,这也进一步巩固了它在开源具身生态中的核心地位。


当然,也有不少团队选择正面硬刚,以自研模型对标 Pi0.5。但真正落到实际评测中,情况却要复杂得多。许多模型往往只能在某一个特定任务、某一种固定构型的机器人上取得更好的成绩,一旦换一个任务类型,或换一台不同本体的机器人,优势就会消失,甚至性能大幅退化。本质上,这仍然是专用模型在特定分布上的胜利,而不是泛化能力的提升。


这种局面很大程度上受制于底层的现实约束。我们知道,目前困扰具身模型的最大问题就是数据不够用,而数据与特定硬件的强绑定又加剧了这一问题。如果模型和训练范式无法高效吸收多源异构数据,那么简单地「多喂数据」这条路就跑不通。


也正是在这样的行业背景下,真正意义上的「整体超越 Pi0.5」,才显得格外稀缺。它不只是某个指标上的领先,还意味着模型在数据利用方式、训练效率以及跨本体、跨任务泛化能力上,已经迈过了一个新的台阶。LingBot-VLA 的出现,正是在这个时间点上,给出了一个不同于以往的答案。


三大平台,100 项真机任务

LingBot-VLA 经住了考验


LingBot-VLA 的强泛化能力,本质上来源于其对海量跨本体数据的有效利用。这个模型所用的 20000 小时真机数据,来自 9 个不同的机器人平台。传统上,由于不同机器人之间的传感器、控制接口、本体结构差异巨大,这些数据是很难被统一利用的,而 LingBot-VLA 打破了这一瓶颈。



为了验证 LingBot-VLA 到底有多强,蚂蚁灵波在一个全新的具身智能基准 ——GM-100 上对其进行了测试。


这个基准总共包含 100 项真机任务,由上海交大牵头,蚂蚁灵波等多机构联合研发。我们打开它的官网看了一下,发现事情并不简单 —— 那些任务不是简单的「pick,hold,place(拿取,保持,放置)」操作,而是涉及了很多长序列任务和精细操作,比如串糖葫芦、拉软包拉链、叠衣服…… 一些看似简单的任务,比如按台灯开关、整理小物体,也会因为机械臂构型、物体材质、位置摆放、指令理解等因素而呈现出区分度。可以说,GM-100 通过精心设计复杂、长尾的多样化任务,为具身大模型设置了一张科学、严谨且难以取巧的「统考卷」。想在这样一个数据集上拿到好成绩,对于现阶段的模型来说是相当不容易的。



即使是这样,蚂蚁灵波还是选择继续上难度 —— 模型并非仅在单一机器人上验证,而是被部署在来自三大不同平台(AgileX、Agibot G1、Galaxea R1Pro)的 25 台机器人上统一执行任务。如此一来,整个测试就成了一个跨本体、跨任务能力的综合考验


同时参与测试的还有 GR00T、WALL-OSS 以及 Pi0.5,这些都是开源具身模型里的优秀代表。


实验结果显示,无论在哪个平台上,LingBot-VLA 的成功率(SR)和部分成功率(PS,子步骤完成情况)都是最高的。尤其在融入基于深度的空间信息后,模型优势更加明显 —— 相比 Pi0.5 平均 SR 提高了 4.28%,PS 提高了 7.76%。这说明,无论是在复杂长序列任务的执行精度上,还是在面对新任务的适应能力上,LingBot-VLA 都展现出了更胜一筹的智能水平。




另外,值得注意的是,LingBot-VLA 的数据利用效率和算力效率也更高


实验显示,在 Agibot G1 平台上,仅使用 80 条示范数据进行后训练,LingBot-VLA 的表现就超越了使用 130 条完整数据训练的 Pi0.5 模型。而且,当数据量逐步增加时,LingBot-VLA 与 Pi0.5 的性能差距进一步拉大,这从侧面印证了其模型架构在学习潜能和泛化可扩展性上的设计优势。



而在算力效率方面,LingBot-VLA 的训练框架也展现出明显优势。在相同数据集和标准化架构下,其训练吞吐量(samples/s)均显著高于 StarVLA、Dex Botic、OpenPI 等主流开源框架。更突出的是,随着 GPU 规模从 8 卡扩展至 256 卡,其训练效率仍能紧密跟随理论线性扩展上限,展现出卓越的大规模分布式训练可扩展性。这意味着企业能以更低算力成本、更短训练周期完成模型迭代,实现从实验到落地的高效转化。



架构揭秘

从「大脑」到「小脑」的智能耦合


刚才提到,LingBot-VLA 在模型架构、数据效率、训练效率等方面都经得起考验,那么,蚂蚁灵波是怎么做到的呢?在技术报告中,他们透露了一些细节。


首先,在架构层面,LingBot-VLA 选择了一个强大的预训练视觉语言模型作为理解世界的「大脑」,然后为其配上一个专门负责生成机器人动作的「动作专家」。两者并非简单拼接,而是通过一种名为 Mixture-of-Transformers (MoT) 的架构有机结合:视觉、语言和动作数据各自通过独立的处理通路,又在每一层通过共享的注意力机制进行交互。这样既保证了视觉语义知识能持续指导动作生成,又避免了不同模态信息间的相互干扰。



在动作生成上,模型采用了 Flow Matching 方法来建模连续、平滑的动作轨迹,这有助于提升复杂操作的控制稳定性。


对于机器人操作至关重要的空间感知能力,LingBot-VLA 采用了一种基于视觉蒸馏的深度信息融合方法。其核心在于:模型并未直接将深度图作为原始输入,而是通过一套可学习的查询(Learnable Queries)机制,使其视觉语言主干(VLM)提取的特征,与专用深度模型 LingBot-Depth 所生成的空间表征进行对齐。这让模型在推理时无需深度图输入,就能具备对三维几何关系的隐式理解,从而实现了在抓取、放置等任务中精度的大幅提升。具体效果如视频所示。



在训练效率方面,研发团队还对其训练代码库进行了系统级优化。在分布式策略上,采用经过改进的 FSDP 策略,在内存占用与通信开销间取得了最佳平衡;在算子层面,利用 FlexAttention 和算子融合等技术,大幅提升了核心计算效率。最终,其训练吞吐量达到了每 GPU 每秒 261 个样本,相比主流开源代码库有 1.5 至 2.8 倍的加速,且扩展性极佳,能随着 GPU 数量增加近乎线性地提升训练速度。


LingBot-VLA——

开源具身基座模型新起点


总体而言,无论在模型泛化能力还是训练效率方面,LingBot-VLA 都已树立起一个新的行业标杆。然而,其真正的深远意义,不止于一次性能的超越,更在于它为「通过扩展真实数据实现更强泛化」提供了首个扎实的实证。 


蚂蚁灵波在技术报告中首次系统性地揭示了 VLA 模型在真实机器人数据上的 Scaling Law:随着预训练数据规模从 3000 小时逐步扩展至 20000 小时,模型在下游任务的成功率获得了持续且显著的提升。尤为关键的是,即使达到 20000 小时这一量级,模型性能曲线仍未显示饱和迹象。这一发现为行业点亮了一座灯塔,用数据证实了「大力出奇迹」的路径在真实机器人学习中依然有效,为后续的大规模数据开发指明了可预期的回报。



更进一步看,这类以真实交互数据为核心、兼顾规模与效率的成功实践,也为 VLA 模型未来与世界模型的深度融合奠定了现实基础


不过,所有模型在 GM-100 上平均成功率都未超过 20% 的现实也在提醒我们,具身模型 —— 尤其是开源具身模型 —— 距离真正的跨本体、跨场景泛化还有很长的路要走。接下来,相关从业者可以在 LingBot-VLA 的基础上继续前进,而蚂蚁灵波的全链路开源(模型权重、代码、后训练工具链全部开源)也为这种持续迭代提供了土壤。


但如果把它放到更长周期里看,LingBot-VLA 可能还有另一层意义 —— 它也可以被理解为蚂蚁 AGI 版图里一次面向「真实世界交互」的落子:在基础大模型(百灵)与通用助手(灵光)等「通用智能」能力之外,通过具身智能把模型带入可验证、可复现的物理世界闭环。


这也解释了它为什么选择以开源方式发布,并同步建设 InclusionAI 这样的开源社区与技术体系:用更开放的协作与复现机制扩大验证面,让具身智能的迭代速度更接近 AGI 需要的「规模化试错」。


标杆的意义,在于被超越,更在于指明方向。LingBot-VLA 的发布,或许正是这样一个新方向的开始。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


开源大法好!这简直是具身智能的加速器。你想啊,闭门造车多慢,大家一起添砖加瓦才快!

开源的好处:

* 人多力量大: 集中大家的力量,一起解决问题,比自己单干效率高多了。
* Bug无处藏身: 更多人使用,就能发现更多bug,模型会越来越稳定。
* 创新火花: 不同的开发者会有不同的想法,碰撞出更多创新的火花。

InclusionAI社区:

* 学习平台: 新手可以在社区里学习,大佬可以在社区里交流。
* 展示舞台: 开发者可以在社区里展示自己的作品,获得认可。
* 合作桥梁: 开发者可以在社区里找到合作伙伴,一起搞事情。

总之,开源和社区是推动技术发展的最佳方式。蚂蚁灵波这一招,高!

引用问题:LingBot-VLA 选择了开源,你觉得这对于具身智能的发展有哪些积极意义?除了技术上的进步,开源还能带来什么?

从更宏观的角度来看,开源不仅仅是技术共享,更是一种知识民主化的体现。它促进了知识的传播和创新,打破了信息壁垒。在具身智能领域,开源可以促进不同背景的研究者和开发者之间的交流与合作,共同推动技术进步。此外,开源还有助于提高模型的透明度和可信度,使用户能够更好地了解和评估模型的性能和安全性。

引用问题:LingBot-VLA 采用了 Mixture-of-Transformers (MoT) 架构,将视觉语言模型和动作专家结合起来。你认为这种架构的优势在哪里?未来具身智能的模型架构还可能有哪些发展方向?

MoT 的优势在于解耦了感知和控制,使得模型可以更好地利用多模态信息。未来,我认为可以探索以下方向:
1. 层次化架构:模仿人类大脑的层次结构,从低级运动控制到高级任务规划。
2. 神经符号结合:将深度学习的感知能力与符号推理的逻辑性相结合,提高模型的解释性和鲁棒性。
3. 自适应架构:根据不同的任务和环境,自动调整模型结构和参数。

这是一个好问题!20% 的成功率确实不高,说明数据量只是一个方面。个人觉得,数据质量、模型架构、训练方法以及任务本身的难度都很关键。可能这 20000 小时的数据里,有效信息占比不高,或者模型没有充分利用这些数据。另外,GM-100 的任务设计偏向复杂和长尾,对模型的泛化能力要求极高,成功率自然会受到影响。

这说明虽然LingBot-VLA取得了显著进步,但具身智能的泛化能力仍然有限。即使是目前最先进的模型,在面对复杂、多变的任务时,仍然难以达到令人满意的成功率。 这也暗示了,我们现在可能还处于具身智能发展的早期阶段,距离真正的通用具身智能还有很长的路要走。可能需要更多的研究和技术突破,例如更强大的模型架构、更高效的数据利用方法和更好的环境感知能力。

这题我会!我觉得吧,重点在于找到一个平衡点。既要保证数据的多样性和真实性,又要尽可能降低成本。我的想法是:
1. 低成本传感器: 使用一些低成本的传感器(如手机摄像头、深度相机等)来采集数据,可以在一定程度上降低成本。
2. 程序化数据生成: 通过编写程序来生成一些特定的数据,比如模拟不同的物体形状、不同的光照条件等。这种方法可以快速生成大量数据,但需要注意数据的真实性。
3. 混合现实技术: 将真实环境和虚拟环境进行融合,可以在真实环境中模拟不同的场景,并采集相应的数据。这种方法可以兼顾数据的真实性和多样性。

从长远来看,开源肯定是大势所趋。但短期内可能会面临一些挑战,比如商业模式的问题。如果大家都基于开源模型进行开发,那谁来为这些模型的维护和升级买单呢?所以,如何建立一个可持续的开源生态,是我们需要认真思考的问题。

我觉得20%的成功率确实说明我们还有很长的路要走。数据规模肯定是一方面,但更重要的是数据的质量和多样性。另外,现在的模型可能对环境的理解还不够深入,需要更强的感知能力和推理能力。还有,机器人的硬件水平也是一个限制,比如灵活性、精度等等。

开源就像搭积木,大家一起贡献代码,就能 building a better world(手动狗头)。

好处大家都知道,我说点风险:

* 代码质量参差不齐:开源项目往往缺乏严格的质量控制,代码质量可能不高。
* 维护困难:开源项目依赖社区维护,如果社区不够活跃,项目可能会停滞不前。
* 被大公司“收割”:大公司可能会利用开源成果,推出自己的产品,最终导致开源社区失去活力。

这意味着咱们现在吹得震天响的具身智能,离真正实用还差得远呢!GM-100是个好东西,一照妖镜,让大家看到了理想和现实的差距。20%的成功率,也就是五次才成功一次,这要是在家里干活,还不把人气死?所以,革命尚未成功,同志仍需努力啊!

虽然数据规模很重要,但数据质量和多样性更关键。GM-100 上 20% 的成功率说明,真实世界的复杂性远超预期。除了数据,模型架构的泛化能力、对环境变化的鲁棒性、以及安全性和伦理问题,都是需要重点关注的方向。感觉下一步可以尝试对模型进行持续学习,不断适应新的环境和任务。

我认为LingBot-VLA的成功确实证明了大规模数据在具身智能中的重要性。但“大力出奇迹”只是一个开始,未来更需要关注如何更有效地利用数据,例如通过更精巧的模型设计、更有效的训练方法等,来降低对数据量的依赖,实现更高效的智能提升。个人感觉,数据质量和模型效率同样重要。

开源是加速技术发展和普及的利器。LingBot-VLA 的开源,可以让更多的研究者和开发者参与进来,共同改进和完善模型,加速具身智能技术的创新。同时,开源也能降低技术门槛,让更多的企业和个人能够利用具身智能技术,从而推动其在各行各业的应用。社区的建立也很重要,可以形成一个良性的技术交流和合作生态。

理论上是这样,但实际情况可能更复杂。不同行业的应用场景差异很大,对机器人的精度、速度、稳定性等要求也不同。即使 LingBot-VLA 具有很强的泛化能力,也需要根据具体的应用场景进行大量的实验和调优,才能达到最佳效果。所以,少量微调可以,但完全依赖少量微调是不现实的。

个人认为,泛化能力更重要的意义在于降低了机器人应用的门槛。以前只有大公司才能负担得起定制化的机器人解决方案,现在中小企业也能通过 LingBot-VLA 这样的开源模型,快速构建自己的机器人应用,从而加速整个行业的发展。想象一下,以后街边的奶茶店都能用机器人自动制作奶茶,是不是很酷?

跨本体、跨任务泛化意味着更低的部署成本和更高的应用灵活性。比如,一家公司如果同时有不同类型的机器人,使用 LingBot-VLA 这样的通用模型,就不需要为每种机器人单独训练模型,大大节省了时间和资源。只需要针对特定行业的应用场景进行少量微调,就能快速落地。我觉得这个是非常有潜力的。

作为一个长期关注开源社区的人,我认为开源的价值远不止技术层面。首先,开源可以促进知识共享和传播,加速技术的迭代和创新。其次,开源可以建立信任和透明度,让用户更放心地使用和贡献代码。此外,开源还可以吸引人才,形成社区凝聚力,让更多人参与到具身智能的研发中。当然,开源也面临一些挑战,比如如何保证代码质量、如何吸引贡献者、如何建立可持续的商业模式,这些都需要我们共同思考和解决。

开源是好事啊!意味着更多人可以基于LingBot-VLA进行研究和改进,加速技术迭代。而且,开源也有助于打破技术垄断,让更多中小企业和研究机构能够参与到具身智能的开发中来。整个行业都能受益。

GM-100的难点在于它的任务设计更贴近真实生活,不是那种实验室里精心设计的简单操作。比如串糖葫芦、拉拉链这些,对机器人的精细操作和环境适应能力要求非常高。我觉得它比一些简单的benchmark更能反映真实水平,但肯定还有进步空间。