自变量机器人闪耀世界机器人大会:WALL-A模型实现“一脑多用”真具身智能,量子2号惊艳亮相

自变量机器人携‘量子2号’亮相世界机器人大会,其‘一脑多用’具身大模型WAL-A展现真·通用智能,有望加速机器人走入生活。

原文标题:挤不动的世界机器人大会上,自变量秀出了真·通用具身智能

原文作者:机器之心

冷月清谈:

2025世界机器人大会(WRC)上,具身智能成为焦点,众多公司展示了各自的最新技术。其中,国内创业公司“自变量机器人”凭借其独特的“一脑多用”技术路径脱颖而出。他们发布的通用轮式双臂机器人“小量”和“小白”以及全新仿人形机器人“量子2号”,展示了在多种复杂场景下,具备高度泛化和自主学习能力的真·通用智能。

自变量机器人的核心是其自研的通用具身大模型WALL-A。该模型支持机器人自主规划并完成一系列长序列复杂操作,例如“小量”可以在展会现场嘈杂环境中自主制作香囊、自动补料,且能适应陌生环境并避障。“小白”则能实时判断客厅环境,精准拾取各种形状的垃圾并收纳衣物。更令人印象深刻的是,WALL-A模型能够做到“一脑多用”,即利用同一个基座大模型,通过短期、少样本的训练就能在开放环境下胜任制作香囊、家务清洁、分拣快递、环绕皮带等多种完全不同类的复杂任务,这在全球机器人大会上是独一无二的。

此外,自变量还推出了“量子2号”仿人形机器人,它结合了自研的臂手一体外骨骼技术和高自由度灵巧手,实现了灵巧操作。该机器人拥有62个自由度,配备多种传感器,能够在家庭、商店、工厂等狭小空间灵活穿梭并精准作业。其五指灵巧手具备20个自由度,可感知细微压力,做到“捏起薯片不会碎,握起玻璃杯不滑落”。

文章指出,当前很多具身智能产品仍依赖预设动作或人工遥控,而自变量的WALL-A模型实现了从感知输入直接映射到机器人控制动作的完整闭环,作为一个端到端统一的VLA(Vision Language Action)模型,它能像人类一样理解图像和语言信息,进行跨模态因果推理,并生成动作指令。这种统一架构使其执行速度快,面对陌生场景也能理解并正确响应。自变量机器人成立一年半以来,已迅速完成“大模型+本体”的搭建,技术栈扎实。未来3到5年内,通用机器人有望逐步进入消费端,并在居家服务、商业、科研教育及工业制造等领域发挥巨大潜力。

怜星夜思:

1、自变量展示的“一脑多用”确实很惊艳,但这种通用具身智能大规模普及后,对我们普通人的就业和社会结构会带来哪些影响?是提升效率还是会带来新的挑战?
2、文章里提到“量子2号”的灵巧手可以“捏起薯片不会碎,握起玻璃杯不滑落”,这背后最核心的技术突破是什么?是不是只要硬件够灵敏,软件就能完美匹配?
3、自变量机器人的WALL-A模型是“端到端统一的VLA模型”,这跟之前大家常说的“AI大模型+机械臂”的模式有什么本质区别?这种新架构的优势和潜在风险又在哪儿?

原文内容

机器之心报道

编辑:泽南

会整理家务、制作香囊,还能比心比耶。


具身智能已经进化到这种程度了,真实满足用户需求似乎指日可待。


今天上午,2025 世界机器人大会 WRC 正式开幕。最近的 AI 技术突破,让参展的公司纷纷拿出了新技术,人头攒动的展台之间,我们看到了一众「具身智能」加持的机器人,其中很多还是首次发布。



它们从整理家务、工业物流、制造装配到跳舞表演可谓无所不能,形态也各式各样,颇有些前不久大模型「百模大战」的样子。不过在这其中,有一家的公司反其道而行之,实现了「一脑多用」的真・通用智能。


国内头部创业公司「自变量机器人」给具身智能定义了一个新的标准。


一脑多用

覆盖多种场景


在 WRC 的展台上,自变量的通用轮式双臂机器人「小量」在制作香囊,为看展观众们送上专属小礼物。


图片


它内置自变量自研的通用具身大模型 WALL-A,短短几天时间内就学会了自主制作香囊,而且工作时不挑环境 —— 不论展会现场周遭的声光环境有多复杂,人群动向如何,都不会干扰到它的「细活」。


如果提出指令,机器人能根据观众的喜好,自主拾取不同的香包,在不到 10cm 的空间中,双臂精巧配合,处理柔性物体的复杂形变,完成香囊的制作,最后一步贴上徽章,跟随观众手掌的移动将香囊成功地递至手中。


当它发现香囊制作物料缺乏时,将主动从制作吧台避障,移动到物料中转区,双臂协同,先后将空的物料筐放到置货架上,随后拿取物料盘完成补料。基于自变量自研的语义导航技术,「小量」能够迅速适应陌生的展位环境,并自主避障完成补货。


展台另一边,你可以向机器人「小白」发出语音指令:「小白,客厅有点乱,请整理一下!」它会在展位模拟的客厅环境中自主移动,在未对周边环境进行建模的情况下,通过语义导航功能和视觉系统实时判断,一边移动一边精准操作完成收纳清理。


图片


它可以拾取地面上的废纸、饮料瓶、塑料袋等各种不规则形状的垃圾,耐心清理完地面后,再把沙发上随意堆叠的多件衣物收纳到脏衣篓。


图片


此外,除了制作香囊,完成日常家务,凭借 WALL-A 模型的强大泛化性,自变量的机械臂也在现场展示了在物流和工业场景中的应用操作,并且速度媲美人为操作。


图片


图片


自变量现场展示的能力相对少见:他们的产品基于端到端的具身智能大模型,能够自主规划并完成一整套长序列复杂操作,在开放随机的环境里能真正做到自主感知、决策与高精度操作,能像人类一样快速学习,不断进行思考、推理、判断、决策,举一反三。


在展会现场,自变量用同一个模型完成了制作香囊、分拣快递、家务清洁、分拣快递、环绕皮带等涉及多场景的完全不同种类的任务。纵观世界机器人大会现场,自变量机器人是唯一真正做到「一脑多用」—— 利用同一个基座大模型,仅通过短期、少样本的训练就能够在开放环境下胜任不同的任务。


「量子 2 号」问世

 五指灵巧手加持


在现场,自变量还展示了两台全新仿人形机器人,基于自变量自研的臂手一体外骨骼技术,在市场首个实现仿人机械臂和高自由度灵巧手的一体化遥操控制。这也为未来机器人真正完成灵巧操作奠定基础。


它们的动作精准且自然,一台负责提供情绪价值,能够与观众即时互动,打招呼碰拳比心。


图片


一台展示了在通用场景中深度清洁的能力,通过夹持工具后的自旋转功能,使用清洁刷、拖布头,能够轻松实现 360 度无死角全方位清洁。


图片


这是自变量首次亮相的轮式双臂仿人形机器人「量子 2 号」。在过去不到半年时间内,完成研发面世,包括灵巧手,均由自变量全栈自研实现。


量子 2 号采用轮式通用底盘,可以在家庭的各个房间、商店、工厂货架等狭小空间灵活穿梭。它的双臂控制范围达到 2 米,末端速度达到 2 米 / 秒,力度控制精确度达到 0.1N,既可以拿起一支笔,也可以搬起一箱水。全身具有高达 62 个自由度,配备视觉、触觉及力位感知等多种传感器,在复杂通用任务操作中,每个动作都贴近人类的运动逻辑和表现。


其中,五指灵巧手采用仿生结构设计,单手拥有 20 个自由度、15 个驱动单元,并可以感知细微的压力变化。据了解,这款灵巧手能够做到捏起薯片不会碎,握起玻璃杯不滑落。配合自变量自研的机械外骨骼遥操器,它就可以学习人类的手部动作,采集行为数据,用作进一步训练基础模型。


图片


综合来看,量子 2 号的多处细节设置均完美适配人类生活空间:不论是递送物品、协助家务,还是与人类配合作业,量子 2 号在设计时都考虑到了高安全冗余和动态质心设计,确保在人类身边工作时的安全与稳定。


从 WALL-A 大模型、灵巧手再到整机本体,量子 2 号背后拥有一套软硬件结合的完整技术栈,这不仅让它看起来更「像人类」,也让它在未来的家庭、商业、工业场景中,具备了更广阔的通用化任务潜力。


具身智能「大脑」

跻身全球第一梯队


在生成式 AI 技术兴起之后,机器人领域经历了一波技术革新,一家家创业公司的 demo 吸引着全世界的眼球。我们似乎只需要「人形 + 大模型 + AI 视觉」就能很快构建起能胜任各种任务的机器人,替代人类的大量工作。


但如果深入了解一下技术你就会发现,如今很多机器人完成的动作,仍然是提前编排好的动作序列、后台人工遥控,以及视频剪辑修饰的结果。


对于很多具身智能产品来说,大模型技术尚未成熟,更不用说进行商业验证了。故事讲完,大规模的实践才刚刚开始。


实际上,要想构建我们想象中「物理世界的 AI」,不仅需要具身智能模型做到精确归类识别,极强的泛化推理能力,还要求机器人软硬件能够高度协同,以操作任意形状、位置的物体。这对算法和数据提出了前所未有的要求。


自变量机器人提出的具身智能基座模型 WALL-A 已经摸到了这个门槛。



作为一个端到端统一的 VLA(Vision Language Action)模型,WALL-A 能够像人类一样思考和工作,不再依赖模块化的信息传递,而是可以直接解析图像、语言信息,进行跨模态的因果推理并生成动作指令,实现了从感知输入直接映射到机器人控制动作的完整闭环能力。


物理世界 AI 的另一头,自动驾驶正在掀起「端到端 2.0」的技术革命,这一波架构的革新就是来源于机器人领域。人们已经意识到了具身智能的突破不会来自对现有基于视觉 - 语言基础模型的修补,而是需要一个统一的架构。


在基于 VLA 架构的 WALL-A 模型中,系统对多模态信息建立了对应关系。经过大量针对性数据的训练,WALL-A 已初步展示出了类似于大语言模型(LLM)的智能涌现,它可以理解人类的手写涂鸦与文字之间对应的关系,也拥有了空间推理能力,可以看着图片,用积木搭出与之匹配的形状。


基于 WALL-A 的系统在面对复杂的环境,能够整合视觉观察、空间记忆和常识知识,构建出连贯的推理链条,具备推理链和一定的自主探索能力。简单来说,它驱动的机器人「有常识」,并能进行灵活决策。


也正是因为端到端模型的统一框架,在实际应用中 WALL-A 可以实现很快的执行速度,面对前所未见的物体、场景可以理解并输出正确的响应。它可以支持超过百类高精度、高复杂度操作任务,实现了很好的的通用与跨场景泛化能力。


有这一套基座模型能力的加持,在今年的世界机器人大会上,我们才见证了机器人技术的一次跃迁。


回想自变量机器人这家明星公司的发展历程,可以发现它的实力不可小觑:一边是研发速度快,一边是技术还能做到足够扎实。


2023 年底成立的自变量机器人,已经在短短一年半的时间里完成了「大模型 + 本体」的搭建。


在去年 4 月,自变量发布初版具身智能底座大模型,随即展示了特定任务上的少样本学习、自发跨任务迁移能力。


去年 10 月,自变量机器人训练出最大参数规模的具身智能通用操作大模型「WALL-A」,在很多任务的操作上达到世界一流水平。


去年 11 月,自变量自研的大规模数据采集设备投入使用,在数据质量控制与数据收集效率方面达到世界领先水平,展现出长序列训推能力和泛化性,模型鲁棒性、成功率优势显著。


今年 4 月,自变量机器人率先在具身思维链等方面取得突破,WALL-A 模型在部分未见的新任务场景中展现出零样本泛化能力,自研本体「量子一号」也率先在开放场景实现商业化落地。


如今,自变量正式对外发布新一代具身轮式仿人形机器人量子 2 号(Quanta X2),至此,自变量机器人已经形成了从算法到落地,软件 + 硬件一体化的全自研技术栈,机器人「大脑」也迅速跻身全球具身智能第一梯队


具身智能的落地

才刚刚开始


自变量创始人王潜表示,未来 3 到 5 年,通用机器人就有望逐步进入到消费端。


随着具身智能的引入,机器人的智慧不断提升,我们会在不久的将来看到它们在很多领域大展身手。从世界机器人大会上看过来,可见的应用方向包括但不限于:


  • 居家服务:机器人自主完成打扫、整理收纳等各种家务,进行买菜补货,甚至完成做饭等任务。

  • 商业场景:在零售、酒店等环境中承担各种服务,或进入康养旅居产业担任导游、护工等工作。

  • 科研教育:部署在前沿研究机构和高校中,作为实验平台帮助人们探索新技术。

  • 工业制造:在传统工业机器人的基础上,具身智能方法能够快速完成操作指令设定,降低编程和调试成本。


对于具身智能的落地来说,这些场景都具有深耕价值。而且在自变量展示的范式中,基础模型可以在真实世界中持续迭代。


在建立技术体系的同时,自变量也在持续推动具身智能的大规模落地。据介绍,自变量目前在与头部客户合作,还计划围绕模型和硬件建立开放生态,赋能更多合作伙伴。


在可预见的未来,具身智能的第一批落地场景,也将成为自变量大展身手的舞台。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于“WALL-A模型是‘端到端统一的VLA模型’,这跟之前大家常说的‘AI大模型+机械臂’的模式有什么本质区别?这种新架构的优势和潜在风险又在哪儿?”

传统的“AI大模型+机械臂”模式通常是模块化的,即感知(视觉)、规划、控制等子系统是独立设计和优化的,大模型可能只负责高层语义理解或决策,然后将指令传递给独立的规划器和控制器。而端到端VLA(Vision Language Action)模型,如WALL-A,则尝试将这些环节统一到一个大模型中。它的本质区别在于,它能够直接从原始的视觉和语言输入,一步到位地输出机器人的动作指令,实现更深层次的跨模态融合和因果推理,不再依赖中间模块的信息转换。

优势:
1. 更强泛化性: 统一架构能更好地学习不同模态间的复杂关联,面对未见任务和环境也能表现出更好的泛化能力。
2. 效率提升: 减少了模块间的信息传递和转换损耗,提高了决策和执行速度。
3. 涌现能力: 随着模型规模和数据量的增加,可能会产生传统模块化系统难以具备的“智能涌现”特性,如更强的常识推理和自主探索能力。
4. 简化开发: 一体化设计可能简化系统集成和调试的复杂性。

潜在风险:
1. 可解释性低: 端到端模型通常是“黑箱”,难以理解其决策过程,出了问题难以排查和修复。
2. 数据依赖性高: 需要海量的、高质量的多模态数据进行训练,数据偏差可能导致模型行为异常。
3. 鲁棒性挑战: 在极端或对抗性场景下,可能会出现意想不到的失败,因为其缺乏明确的规则和逻辑约束。
4. 计算资源需求: 统一大模型的训练和部署需要巨大的计算资源。

哈哈哈,对就业和社会结构的影响?我觉得就是:以后打扫卫生、做饭、带孩子、甚至陪聊,都有机器人代劳了。我就能躺在沙发上,喝着肥宅快乐水,指挥着机器人给我捶腿了!挑战?最大的挑战可能是……我要怎么才能赚够钱,买得起这么多机器人呢?哎,想想就幸福啊,终于可以把时间花在更有意义的事情上了,比如……多睡一会儿。

问到灵巧手的核心技术?我觉得吧,这就像是在给机器人训练“手感”!光是硬件能动还不行,得知道怎么动才是对的。所以背后肯定是大模型在发挥作用,通过大量的训练学会了不同物体的“抓取姿势”和“用力技巧”。像捏薯片,你得知道薯片脆,就得轻;握玻璃杯不能滑,还得有一定的摩擦力。这可不是靠一套设定好的程序就能搞定的,得是机器人自己“看”和“感觉”出来的。所以,硬件是基础,软件才是灵魂,两者缺一不可,而且还得完美配合。

问到端到端VLA模型和之前的AI大模型+机械臂的区别。

我的理解就是,以前那种模式,就像是你给一个团队下达任务,团队里有专门负责“看”的(视觉AI),有专门负责“想”的(规划AI),最后才有个“动手”的(机械臂)。它们是分开的,互相传递信息。而现在这种WALL-A模型,就像是个“全能大脑”,它把“看”、“想”和“做”都整合到自己一个脑子里了,直接就能理解你说的,然后自己就动起来了。优点是更连贯,更像人类的思维过程;缺点嘛,我觉得就是如果这个“全能大脑”偶尔“短路”了,那可能就更难发现问题出在哪儿了,毕竟它是个“黑箱子”。

关于“自变量展示的‘一脑多用’确实很惊艳,但这种通用具身智能大规模普及后,对我们普通人的就业和社会结构会带来哪些影响?是提升效率还是会带来新的挑战?”

从宏观经济学角度看,技术进步通常会带来生产效率的巨大提升,创造新的产业和就业机会,但同时也会淘汰旧的岗位。通用具身智能的普及,短期内可能会冲击一些重复性、体力密集型的工作;长期来看,它能解放人类从事更具创造性、策略性、情感交互性的工作。社会结构方面,我们可能需要重新思考教育体系、收入分配模式以及社会福利保障,以适应这种变革。这既是提升效率的机遇,更是对我们社会韧性和适应力的巨大挑战。

问到对就业和社会结构的影响?我觉得短期内不用太焦虑啦,毕竟文章里也说了,具身智能才刚刚开始落地。现在机器人造价和维护都不便宜,普通家庭哪能说买就买?真到了大规模普及那天,我相信社会也会配套发展出很多新的职业,比如机器人培训师、维修师、甚至“机器人奶妈”之类的。效率肯定会提升,但挑战嘛……估计就是得逼着我们多学习新技能,别被时代淘汰了。

哈!这区别嘛,打个比方就是:以前是“指挥官+特种兵”,指挥官(AI大模型)出指令,特种兵(机械臂)去执行。中间可能还得有个参谋(规划模块)给特种兵出谋划策。现在WALL-A就像是“超进化”了!它自己就是指挥官、参谋、特种兵三合一的“超级战士”!优点当然是更酷炫,更顺滑,机器人感觉跟人一样脑子转得快。至于风险嘛,万一这“超级战士”哪天做梦梦到自己变成烤箱了,然后非要往自己嘴里塞面包片,那是不是就没法救了?开玩笑啦,但这种完全自主决策的模式,确实让人又兴奋又有点小期待它会搞出什么“幺蛾子”!

针对“量子2号”灵巧手的问题,“捏起薯片不会碎,握起玻璃杯不滑落”这确实是具身智能领域一个很具代表性的挑战。

其核心技术突破远不止硬件灵敏度高那么简单。首先,硬件上需要具备高自由度(如20个自由度)、精密的力矩传感器和高响应速度的驱动器。但更关键的是软件层面,特别是自变量提到的VLA(Vision Language Action)大模型。这代表了多模态数据(视觉、触觉、力觉)的深度融合和实时处理能力,以及基于海量数据的强化学习和模仿学习。机器人需要能精确感知物体材质、形状、重量,并结合任务目标,实时调整抓取策略和力道,实现毫米级的精准控制。所以,它不是简单的硬件灵敏度问题,而是‘感知-决策-控制’闭环,并且是基于深度学习的‘端到端’智能。

哈哈, “捏起薯片不会碎,握起玻璃杯不滑落”,这简直就是强迫症患者的福音!这核心技术啊,我觉得就是机器人有了“眼力”和“腕力”的完美结合。它能通过视觉判断薯片好脆,通过触觉和力反馈知道用多大力道合适,还能在抓取过程中实时调整。这可不是那种“傻大个”机械臂能干的活儿。当然了,我觉得更先进的是,说不定以后它还能根据薯片的口味不同,做出不同程度的拿捏力度呢?(开个玩笑,但技术发展确实出乎意料)。