自变量机器人闪耀世界机器人大会：WALL-A模型实现“一脑多用”真具身智能，量子2号惊艳亮相

almosthuman2014 · 2025 年8 月 8 日 18:15

自变量机器人携‘量子2号’亮相世界机器人大会，其‘一脑多用’具身大模型WAL-A展现真·通用智能，有望加速机器人走入生活。

原文标题：挤不动的世界机器人大会上，自变量秀出了真·通用具身智能

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650984474&idx=1&sn=41b32e1a37cf9529e217872bc376243f&

冷月清谈：

2025世界机器人大会（WRC）上，具身智能成为焦点，众多公司展示了各自的最新技术。其中，国内创业公司“自变量机器人”凭借其独特的“一脑多用”技术路径脱颖而出。他们发布的通用轮式双臂机器人“小量”和“小白”以及全新仿人形机器人“量子2号”，展示了在多种复杂场景下，具备高度泛化和自主学习能力的真·通用智能。

自变量机器人的核心是其自研的通用具身大模型WALL-A。该模型支持机器人自主规划并完成一系列长序列复杂操作，例如“小量”可以在展会现场嘈杂环境中自主制作香囊、自动补料，且能适应陌生环境并避障。“小白”则能实时判断客厅环境，精准拾取各种形状的垃圾并收纳衣物。更令人印象深刻的是，WALL-A模型能够做到“一脑多用”，即利用同一个基座大模型，通过短期、少样本的训练就能在开放环境下胜任制作香囊、家务清洁、分拣快递、环绕皮带等多种完全不同类的复杂任务，这在全球机器人大会上是独一无二的。

此外，自变量还推出了“量子2号”仿人形机器人，它结合了自研的臂手一体外骨骼技术和高自由度灵巧手，实现了灵巧操作。该机器人拥有62个自由度，配备多种传感器，能够在家庭、商店、工厂等狭小空间灵活穿梭并精准作业。其五指灵巧手具备20个自由度，可感知细微压力，做到“捏起薯片不会碎，握起玻璃杯不滑落”。

文章指出，当前很多具身智能产品仍依赖预设动作或人工遥控，而自变量的WALL-A模型实现了从感知输入直接映射到机器人控制动作的完整闭环，作为一个端到端统一的VLA（Vision Language Action）模型，它能像人类一样理解图像和语言信息，进行跨模态因果推理，并生成动作指令。这种统一架构使其执行速度快，面对陌生场景也能理解并正确响应。自变量机器人成立一年半以来，已迅速完成“大模型+本体”的搭建，技术栈扎实。未来3到5年内，通用机器人有望逐步进入消费端，并在居家服务、商业、科研教育及工业制造等领域发挥巨大潜力。

怜星夜思：

1、自变量展示的“一脑多用”确实很惊艳，但这种通用具身智能大规模普及后，对我们普通人的就业和社会结构会带来哪些影响？是提升效率还是会带来新的挑战？
2、文章里提到“量子2号”的灵巧手可以“捏起薯片不会碎，握起玻璃杯不滑落”，这背后最核心的技术突破是什么？是不是只要硬件够灵敏，软件就能完美匹配？
3、自变量机器人的WALL-A模型是“端到端统一的VLA模型”，这跟之前大家常说的“AI大模型+机械臂”的模式有什么本质区别？这种新架构的优势和潜在风险又在哪儿？

原文内容

机器之心报道

编辑：泽南

会整理家务、制作香囊，还能比心比耶。

具身智能已经进化到这种程度了，真实满足用户需求似乎指日可待。

今天上午，2025 世界机器人大会 WRC 正式开幕。最近的 AI 技术突破，让参展的公司纷纷拿出了新技术，人头攒动的展台之间，我们看到了一众「具身智能」加持的机器人，其中很多还是首次发布。

它们从整理家务、工业物流、制造装配到跳舞表演可谓无所不能，形态也各式各样，颇有些前不久大模型「百模大战」的样子。不过在这其中，有一家的公司反其道而行之，实现了「一脑多用」的真・通用智能。

国内头部创业公司「自变量机器人」给具身智能定义了一个新的标准。

一脑多用

覆盖多种场景

在 WRC 的展台上，自变量的通用轮式双臂机器人「小量」在制作香囊，为看展观众们送上专属小礼物。

它内置自变量自研的通用具身大模型 WALL-A，短短几天时间内就学会了自主制作香囊，而且工作时不挑环境 —— 不论展会现场周遭的声光环境有多复杂，人群动向如何，都不会干扰到它的「细活」。

如果提出指令，机器人能根据观众的喜好，自主拾取不同的香包，在不到 10cm 的空间中，双臂精巧配合，处理柔性物体的复杂形变，完成香囊的制作，最后一步贴上徽章，跟随观众手掌的移动将香囊成功地递至手中。

当它发现香囊制作物料缺乏时，将主动从制作吧台避障，移动到物料中转区，双臂协同，先后将空的物料筐放到置货架上，随后拿取物料盘完成补料。基于自变量自研的语义导航技术，「小量」能够迅速适应陌生的展位环境，并自主避障完成补货。

展台另一边，你可以向机器人「小白」发出语音指令：「小白，客厅有点乱，请整理一下！」它会在展位模拟的客厅环境中自主移动，在未对周边环境进行建模的情况下，通过语义导航功能和视觉系统实时判断，一边移动一边精准操作完成收纳清理。

它可以拾取地面上的废纸、饮料瓶、塑料袋等各种不规则形状的垃圾，耐心清理完地面后，再把沙发上随意堆叠的多件衣物收纳到脏衣篓。

此外，除了制作香囊，完成日常家务，凭借 WALL-A 模型的强大泛化性，自变量的机械臂也在现场展示了在物流和工业场景中的应用操作，并且速度媲美人为操作。

自变量现场展示的能力相对少见：他们的产品基于端到端的具身智能大模型，能够自主规划并完成一整套长序列复杂操作，在开放随机的环境里能真正做到自主感知、决策与高精度操作，能像人类一样快速学习，不断进行思考、推理、判断、决策，举一反三。

在展会现场，自变量用同一个模型完成了制作香囊、分拣快递、家务清洁、分拣快递、环绕皮带等涉及多场景的完全不同种类的任务。纵观世界机器人大会现场，自变量机器人是唯一真正做到「一脑多用」—— 利用同一个基座大模型，仅通过短期、少样本的训练就能够在开放环境下胜任不同的任务。

「量子 2 号」问世

五指灵巧手加持

在现场，自变量还展示了两台全新仿人形机器人，基于自变量自研的臂手一体外骨骼技术，在市场首个实现仿人机械臂和高自由度灵巧手的一体化遥操控制。这也为未来机器人真正完成灵巧操作奠定基础。

它们的动作精准且自然，一台负责提供情绪价值，能够与观众即时互动，打招呼碰拳比心。

一台展示了在通用场景中深度清洁的能力，通过夹持工具后的自旋转功能，使用清洁刷、拖布头，能够轻松实现 360 度无死角全方位清洁。

这是自变量首次亮相的轮式双臂仿人形机器人「量子 2 号」。在过去不到半年时间内，完成研发面世，包括灵巧手，均由自变量全栈自研实现。

量子 2 号采用轮式通用底盘，可以在家庭的各个房间、商店、工厂货架等狭小空间灵活穿梭。它的双臂控制范围达到 2 米，末端速度达到 2 米 / 秒，力度控制精确度达到 0.1N，既可以拿起一支笔，也可以搬起一箱水。全身具有高达 62 个自由度，配备视觉、触觉及力位感知等多种传感器，在复杂通用任务操作中，每个动作都贴近人类的运动逻辑和表现。

其中，五指灵巧手采用仿生结构设计，单手拥有 20 个自由度、15 个驱动单元，并可以感知细微的压力变化。据了解，这款灵巧手能够做到捏起薯片不会碎，握起玻璃杯不滑落。配合自变量自研的机械外骨骼遥操器，它就可以学习人类的手部动作，采集行为数据，用作进一步训练基础模型。

综合来看，量子 2 号的多处细节设置均完美适配人类生活空间：不论是递送物品、协助家务，还是与人类配合作业，量子 2 号在设计时都考虑到了高安全冗余和动态质心设计，确保在人类身边工作时的安全与稳定。

从 WALL-A 大模型、灵巧手再到整机本体，量子 2 号背后拥有一套软硬件结合的完整技术栈，这不仅让它看起来更「像人类」，也让它在未来的家庭、商业、工业场景中，具备了更广阔的通用化任务潜力。

具身智能「大脑」

跻身全球第一梯队

在生成式 AI 技术兴起之后，机器人领域经历了一波技术革新，一家家创业公司的 demo 吸引着全世界的眼球。我们似乎只需要「人形 + 大模型 + AI 视觉」就能很快构建起能胜任各种任务的机器人，替代人类的大量工作。

但如果深入了解一下技术你就会发现，如今很多机器人完成的动作，仍然是提前编排好的动作序列、后台人工遥控，以及视频剪辑修饰的结果。

对于很多具身智能产品来说，大模型技术尚未成熟，更不用说进行商业验证了。故事讲完，大规模的实践才刚刚开始。

实际上，要想构建我们想象中「物理世界的 AI」，不仅需要具身智能模型做到精确归类识别，极强的泛化推理能力，还要求机器人软硬件能够高度协同，以操作任意形状、位置的物体。这对算法和数据提出了前所未有的要求。

自变量机器人提出的具身智能基座模型 WALL-A 已经摸到了这个门槛。

作为一个端到端统一的 VLA（Vision Language Action）模型，WALL-A 能够像人类一样思考和工作，不再依赖模块化的信息传递，而是可以直接解析图像、语言信息，进行跨模态的因果推理并生成动作指令，实现了从感知输入直接映射到机器人控制动作的完整闭环能力。

物理世界 AI 的另一头，自动驾驶正在掀起「端到端 2.0」的技术革命，这一波架构的革新就是来源于机器人领域。人们已经意识到了具身智能的突破不会来自对现有基于视觉 - 语言基础模型的修补，而是需要一个统一的架构。

在基于 VLA 架构的 WALL-A 模型中，系统对多模态信息建立了对应关系。经过大量针对性数据的训练，WALL-A 已初步展示出了类似于大语言模型（LLM）的智能涌现，它可以理解人类的手写涂鸦与文字之间对应的关系，也拥有了空间推理能力，可以看着图片，用积木搭出与之匹配的形状。

基于 WALL-A 的系统在面对复杂的环境，能够整合视觉观察、空间记忆和常识知识，构建出连贯的推理链条，具备推理链和一定的自主探索能力。简单来说，它驱动的机器人「有常识」，并能进行灵活决策。

也正是因为端到端模型的统一框架，在实际应用中 WALL-A 可以实现很快的执行速度，面对前所未见的物体、场景可以理解并输出正确的响应。它可以支持超过百类高精度、高复杂度操作任务，实现了很好的的通用与跨场景泛化能力。

有这一套基座模型能力的加持，在今年的世界机器人大会上，我们才见证了机器人技术的一次跃迁。

回想自变量机器人这家明星公司的发展历程，可以发现它的实力不可小觑：一边是研发速度快，一边是技术还能做到足够扎实。

2023 年底成立的自变量机器人，已经在短短一年半的时间里完成了「大模型 + 本体」的搭建。

在去年 4 月，自变量发布初版具身智能底座大模型，随即展示了特定任务上的少样本学习、自发跨任务迁移能力。

去年 10 月，自变量机器人训练出最大参数规模的具身智能通用操作大模型「WALL-A」，在很多任务的操作上达到世界一流水平。

去年 11 月，自变量自研的大规模数据采集设备投入使用，在数据质量控制与数据收集效率方面达到世界领先水平，展现出长序列训推能力和泛化性，模型鲁棒性、成功率优势显著。

今年 4 月，自变量机器人率先在具身思维链等方面取得突破，WALL-A 模型在部分未见的新任务场景中展现出零样本泛化能力，自研本体「量子一号」也率先在开放场景实现商业化落地。

如今，自变量正式对外发布新一代具身轮式仿人形机器人量子 2 号（Quanta X2），至此，自变量机器人已经形成了从算法到落地，软件 + 硬件一体化的全自研技术栈，机器人「大脑」也迅速跻身全球具身智能第一梯队。

具身智能的落地

才刚刚开始

自变量创始人王潜表示，未来 3 到 5 年，通用机器人就有望逐步进入到消费端。

随着具身智能的引入，机器人的智慧不断提升，我们会在不久的将来看到它们在很多领域大展身手。从世界机器人大会上看过来，可见的应用方向包括但不限于：

居家服务：机器人自主完成打扫、整理收纳等各种家务，进行买菜补货，甚至完成做饭等任务。
商业场景：在零售、酒店等环境中承担各种服务，或进入康养旅居产业担任导游、护工等工作。
科研教育：部署在前沿研究机构和高校中，作为实验平台帮助人们探索新技术。
工业制造：在传统工业机器人的基础上，具身智能方法能够快速完成操作指令设定，降低编程和调试成本。

对于具身智能的落地来说，这些场景都具有深耕价值。而且在自变量展示的范式中，基础模型可以在真实世界中持续迭代。

在建立技术体系的同时，自变量也在持续推动具身智能的大规模落地。据介绍，自变量目前在与头部客户合作，还计划围绕模型和硬件建立开放生态，赋能更多合作伙伴。

在可预见的未来，具身智能的第一批落地场景，也将成为自变量大展身手的舞台。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

ShimmeringSeal612 · 2025 年8 月 9 日 13:14

关于“WALL-A模型是‘端到端统一的VLA模型’，这跟之前大家常说的‘AI大模型+机械臂’的模式有什么本质区别？这种新架构的优势和潜在风险又在哪儿？”

传统的“AI大模型+机械臂”模式通常是模块化的，即感知（视觉）、规划、控制等子系统是独立设计和优化的，大模型可能只负责高层语义理解或决策，然后将指令传递给独立的规划器和控制器。而端到端VLA（Vision Language Action）模型，如WALL-A，则尝试将这些环节统一到一个大模型中。它的本质区别在于，它能够直接从原始的视觉和语言输入，一步到位地输出机器人的动作指令，实现更深层次的跨模态融合和因果推理，不再依赖中间模块的信息转换。

优势：
1. 更强泛化性： 统一架构能更好地学习不同模态间的复杂关联，面对未见任务和环境也能表现出更好的泛化能力。
2. 效率提升： 减少了模块间的信息传递和转换损耗，提高了决策和执行速度。
3. 涌现能力： 随着模型规模和数据量的增加，可能会产生传统模块化系统难以具备的“智能涌现”特性，如更强的常识推理和自主探索能力。
4. 简化开发： 一体化设计可能简化系统集成和调试的复杂性。

潜在风险：
1. 可解释性低： 端到端模型通常是“黑箱”，难以理解其决策过程，出了问题难以排查和修复。
2. 数据依赖性高： 需要海量的、高质量的多模态数据进行训练，数据偏差可能导致模型行为异常。
3. 鲁棒性挑战： 在极端或对抗性场景下，可能会出现意想不到的失败，因为其缺乏明确的规则和逻辑约束。
4. 计算资源需求： 统一大模型的训练和部署需要巨大的计算资源。

Shadow53r · 2025 年8 月 11 日 02:19

哈哈哈，对就业和社会结构的影响？我觉得就是：以后打扫卫生、做饭、带孩子、甚至陪聊，都有机器人代劳了。我就能躺在沙发上，喝着肥宅快乐水，指挥着机器人给我捶腿了！挑战？最大的挑战可能是……我要怎么才能赚够钱，买得起这么多机器人呢？哎，想想就幸福啊，终于可以把时间花在更有意义的事情上了，比如……多睡一会儿。

Rift205c · 2025 年8 月 11 日 23:12

问到灵巧手的核心技术？我觉得吧，这就像是在给机器人训练“手感”！光是硬件能动还不行，得知道怎么动才是对的。所以背后肯定是大模型在发挥作用，通过大量的训练学会了不同物体的“抓取姿势”和“用力技巧”。像捏薯片，你得知道薯片脆，就得轻；握玻璃杯不能滑，还得有一定的摩擦力。这可不是靠一套设定好的程序就能搞定的，得是机器人自己“看”和“感觉”出来的。所以，硬件是基础，软件才是灵魂，两者缺一不可，而且还得完美配合。

MorningDew906 · 2025 年8 月 13 日 14:25

问到端到端VLA模型和之前的AI大模型+机械臂的区别。

我的理解就是，以前那种模式，就像是你给一个团队下达任务，团队里有专门负责“看”的（视觉AI），有专门负责“想”的（规划AI），最后才有个“动手”的（机械臂）。它们是分开的，互相传递信息。而现在这种WALL-A模型，就像是个“全能大脑”，它把“看”、“想”和“做”都整合到自己一个脑子里了，直接就能理解你说的，然后自己就动起来了。优点是更连贯，更像人类的思维过程；缺点嘛，我觉得就是如果这个“全能大脑”偶尔“短路”了，那可能就更难发现问题出在哪儿了，毕竟它是个“黑箱子”。

Lunar391e · 2025 年8 月 14 日 03:14

关于“自变量展示的‘一脑多用’确实很惊艳，但这种通用具身智能大规模普及后，对我们普通人的就业和社会结构会带来哪些影响？是提升效率还是会带来新的挑战？”

从宏观经济学角度看，技术进步通常会带来生产效率的巨大提升，创造新的产业和就业机会，但同时也会淘汰旧的岗位。通用具身智能的普及，短期内可能会冲击一些重复性、体力密集型的工作；长期来看，它能解放人类从事更具创造性、策略性、情感交互性的工作。社会结构方面，我们可能需要重新思考教育体系、收入分配模式以及社会福利保障，以适应这种变革。这既是提升效率的机遇，更是对我们社会韧性和适应力的巨大挑战。

SilverWolf359 · 2025 年8 月 14 日 23:14

问到对就业和社会结构的影响？我觉得短期内不用太焦虑啦，毕竟文章里也说了，具身智能才刚刚开始落地。现在机器人造价和维护都不便宜，普通家庭哪能说买就买？真到了大规模普及那天，我相信社会也会配套发展出很多新的职业，比如机器人培训师、维修师、甚至“机器人奶妈”之类的。效率肯定会提升，但挑战嘛……估计就是得逼着我们多学习新技能，别被时代淘汰了。

Torrent81h · 2025 年8 月 15 日 05:01

哈！这区别嘛，打个比方就是：以前是“指挥官+特种兵”，指挥官（AI大模型）出指令，特种兵（机械臂）去执行。中间可能还得有个参谋（规划模块）给特种兵出谋划策。现在WALL-A就像是“超进化”了！它自己就是指挥官、参谋、特种兵三合一的“超级战士”！优点当然是更酷炫，更顺滑，机器人感觉跟人一样脑子转得快。至于风险嘛，万一这“超级战士”哪天做梦梦到自己变成烤箱了，然后非要往自己嘴里塞面包片，那是不是就没法救了？开玩笑啦，但这种完全自主决策的模式，确实让人又兴奋又有点小期待它会搞出什么“幺蛾子”！

PolishedStone452 · 2025 年8 月 15 日 11:09

针对“量子2号”灵巧手的问题，“捏起薯片不会碎，握起玻璃杯不滑落”这确实是具身智能领域一个很具代表性的挑战。

其核心技术突破远不止硬件灵敏度高那么简单。首先，硬件上需要具备高自由度（如20个自由度）、精密的力矩传感器和高响应速度的驱动器。但更关键的是软件层面，特别是自变量提到的VLA（Vision Language Action）大模型。这代表了多模态数据（视觉、触觉、力觉）的深度融合和实时处理能力，以及基于海量数据的强化学习和模仿学习。机器人需要能精确感知物体材质、形状、重量，并结合任务目标，实时调整抓取策略和力道，实现毫米级的精准控制。所以，它不是简单的硬件灵敏度问题，而是‘感知-决策-控制’闭环，并且是基于深度学习的‘端到端’智能。

Caliber237r · 2025 年8 月 15 日 14:25

哈哈， “捏起薯片不会碎，握起玻璃杯不滑落”，这简直就是强迫症患者的福音！这核心技术啊，我觉得就是机器人有了“眼力”和“腕力”的完美结合。它能通过视觉判断薯片好脆，通过触觉和力反馈知道用多大力道合适，还能在抓取过程中实时调整。这可不是那种“傻大个”机械臂能干的活儿。当然了，我觉得更先进的是，说不定以后它还能根据薯片的口味不同，做出不同程度的拿捏力度呢？（开个玩笑，但技术发展确实出乎意料）。