清华系团队橡木果押注“具身本能”:用触觉让机器人更快适应工业产线

橡木果机器人押注触觉与“具身本能”,试图让机器人少依赖数据、更快适应工业产线。

原文标题:不靠数据,靠本能:9位清华博士用「具身本能」跑通工业产线

原文作者:机器之心

冷月清谈:

机器之心报道了清华系团队橡木果机器人提出的“具身本能”路线。与主流 VLA 依赖视觉、语言和海量模仿数据不同,橡木果将任务规划与底层操作执行解耦,重点攻克灵巧手等末端执行器的触觉反馈与自主操作能力。其端侧模型 Natus 通过定向、探索、执行三类“本能反射”,让机器人在没有针对性训练的情况下,根据滑移、阻抗、重心等触觉信息实时调整抓取和装配动作。团队还研发了视触觉传感器,将硅胶弹性体变形转化为标准化触觉信息,降低硬件差异对模型的影响。未来,橡木果计划用触觉语义增强数据训练技能模型 Magis,减少对海量视频数据的依赖。目前该路线已在化妆品等工业柔性产线完成 POC 并进入实际部署,主要面向抓放、旋拧、插拔等传统自动化难以适应的场景。

怜星夜思:

1、如果机器人真的能靠触觉“冷启动”,VLA 这类大模型路线还会是具身智能的主流吗?
2、文章里把“本能”说得很强,但这种不靠训练数据的能力会不会也有上限?
3、工业产线到底更需要“通用机器人”,还是更需要这种专门解决抓取、插拔、旋拧的底层能力?
4、触觉传感器会不会成为具身智能里被低估的关键硬件?还是说最后仍然会被算法吃掉?

原文内容

Image
编辑 | 泽南


这是第一次,机器人学会了用手「盘」:


图片


在有人和它博弈的情况下,能稳稳拿住东西:


图片


更让人想不到的是,这是通过「本能」来实现的:机器人完全没有经过对应的训练,上手就能做到。


一家清华大学背景的团队,在探索 8 年后,走出了一条与主流 VLA 截然相反的路线:自下而上,本能驱动。


当全行业都在教机器人「用眼睛看、用脑子想」时,橡木果(Acorn Robot)决定先给机器人装上「具身本能」,达成了前所未有的实用性。


在这背后,不仅有独一无二的技术,还有对于当前具身智能技术路线的独特思考。


VLA 路线,有必然「走不通」的地方


当前火热的具身智能领域,VLA(视觉 - 语言 - 动作)模型几乎成了唯一的范式。


VLA 的底层逻辑是「模仿学习」—— 人类操作员采集海量数据,再让机器人去拟合人类的动作。训练后的机器人,你只需要用语言告诉它做什么,它就能直接执行,不需要人工编程的介入。


外界普遍乐观地认为,只要数据足够多,机器人就能像 ChatGPT 改变软件世界一样重塑物理世界。但随着技术从概念走向工程,这种「自上而下」的路径正在遭遇无形的壁垒。


最近,国内外具身智能团队都在卷真实环境中的稳定性,不是单纯的看成功率,而是在看现实世界遇到突发情况能够正确应对的概率。毕竟我们说机器人进工厂打螺丝,是真的要去打螺丝。


具体到技术上,前沿方向上甚至已经出现了 VLA 向 VTLA 演进的趋势:新增的 T(触觉)意味着机器人需要在精细物理交互的场景里不仅要能看,还要能摸,作出更精准的力量控制操作。


一开始抓细节,瓶颈就出现了。


真实世界的物理交互场景 —— 物体被机械手抓住时的手感、力矩变化,手与接触面滑动时的摩擦反馈,这些数据是无法依靠仿真环境来完全模拟的。而在 VLA 范式中,任务与硬件耦合在黑箱中,泛化数据量呈指数级增长,远超自然语言 Scaling Laws 的范畴。


目前的具身智能距离真正的商用化仍有距离,究其原因,是因为工厂里的每一个工位、所有动作都需要让机器人进行单独的适配。在实践过程中,即使外观一模一样的两个夹爪,因导轨松紧不同,也需要不同的模型参数。


此外,VLA 依赖的仅有视觉这一个单一的信息维度,机器人无法感知重心偏移、滑移趋势、物体软硬等触觉信息维度,导致「眼睛学会了,上手却不行」。因此,视觉无法感知操作接触交互过程,也就没有资格给操作结果打标签,真正参与操作、能够定义「成功」操作的触觉探索却还几乎是一片空白。


那么,给出了问题,如何来解决?


解法:自下而上重构通用操作


VLA 注定「学不好」打螺丝,一部分原因在于模型的底层原理。


作为一种端到端大模型,VLA 会融合多模态的信息,通过注意力机制将视觉特征和语言指令在共享的嵌入空间内进行深度对齐与交互,从而让大模型底座发挥推理能力决定下一步的策略。这就意味着 VLA 的智慧基于的是大语言模型智能涌现的机理。


然而一个长期被忽略的事实是:语言并非先天本能。


我们知道,一个人类小孩出生后若不接触语言,一辈子都不会说话。而「动作」与操作恰恰相反,人类抓取物体的方式是高度一致的,无论文化与环境,从未有人教过我们如何抓取,这是出生即有的、由触觉刺激直接触发的本能。既然人类的操作源于本能,那为什么非要让机器人通过看视频,揣摩语义的方式去「盲人摸象」?


基于对黑箱模型的反思,橡木果提出了一套完全不同的技术架构:将任务规划(大脑)与操作执行(小脑)彻底解耦,各自独立演进,通过标准化接口协同起来。



在这个架构中,橡木果不做上层的任务规划,而是把精力集中在攻克底层的操作执行上,再去接入行业头部生态。


在操作执行层上,端侧的自主决策模型 Natus 是一个完全嵌在灵巧手等末端执行器中的底层模型,由「触觉刺激的本能反射」与「自主学习的肌肉记忆」构建。


它包含三大类本能反射,首先是定向本能。用于构建接触关系,与视觉协同,通过找到 / 发现 / 定向 / 识别,指引末端向目标物体移动,类似婴儿看到移动物体时头部的追随。


其次是探索本能,用于构建约束关系。这是最复杂、也最体现智能涌现的地方。当手接触物体后,它会自动沿物体表面探索,寻找稳定的接触构型,不是通过预设程序,也不是通过模仿学习,而是由「建立稳定接触」这一本能规律催生出的自主行为。


基于 Natus 模型,机器人可以构建出一种执行本能,以「滑移最小化」或「阻抗匹配」为目标,实时调节电机电流(肌肉张力),抓豆腐时增益调低(松),抓锤子时增益调高(紧),装配时则可以根据环境阻抗等触觉信息自适应判别并完成接插任务。所有调控依据均来自触觉信息的实时反馈,无需任何训练数据,频率高达 200Hz。


在测试中团队发现,机器人从未见过卡片型的物体,却能通过自主探索把卡片翘起一角,成功抓取起来:


图片


面对半瓶水的饮料,它会反复试探重心,逐步调整抓力,最后稳稳拿起:


图片


这些行为不是编程预设,数据集中也不存在这样的数据(甚至夹爪设计时并不是做这些动作的),都是由本能催生出的操作智能涌现。这种自下而上的行为涌现从基本的「规律」出发,让动作自行产生。与数据喂养的路径截然不同 —— 不会附带任何多余的小动作,而是始终持续地项目表状态收敛。


这种设计哲学不规定具体动作,却支配了操作的底层逻辑,实现了零数据冷启动、毫秒级响应和硬件自适应。


橡木果发起人姜峣表示,本能的范式决定了两个重要的性质:能力不由数据驱动,不受后天影响,它能让硬件具备泛化性,像人类小孩一样拿起各种各样的物体,涌现出很有意思的行为。模型的探索是持续进行的,不会有其他范式经常会出现的停顿。


构建触觉信息基础


要让「本能路线」跑通,高精度的触觉输入是硬前提。目前很多具身智能团队对触觉的理解还停留在粗浅的测力 / 测压阶段,而在橡木果看来,完整的操作触觉必须包含三个维度的信息:


  • 界面信息:包含每个接触点力矢量的分布力,弹性体的应变场,界面的微动趋势(滑移)。其中滑移趋势最为关键,有了滑移感知,机器人就能够不需要任何训练数据,冷启动调节抓力。

  • 物体信息:包括软硬度、摩擦系数、材质纹理、质量、质心分布等视觉无法获取的力学属性。

  • 环境信息:包括接触刚度、阻抗、扰动、接触位置等。装配、打磨、抛光等使用工具操作的高度依赖环境信息。



为此,该团队历时 7 年迭代,十余代原型机,已推出第三代视触觉传感器(Vision-based Tactile Sensor)。其采用弹性体(硅胶)加微型相机的方案,能通过图像表征与重构算法将弹性体的变形反演为物理量。


虽然「硅胶 + 相机」的视触觉原理样机的技术门槛并不高,但橡木果在其中构筑了工程壁垒:公司在 2020 年便首次提出了动态表征(特征追踪)技术,领先行业数年。同时,团队攻克了非线性、黏弹性逆问题的工程化标定。


更重要的是,他们将图像预处理算法压缩到指尖内的芯片,优化信息重构算法,可实时输出多模态、标准化的触觉信息,而非原始图像 —— 彻底避免了硬件差异导致模型失效的痛点。


下一步:上手即熟练


本能可以让机器人进行自主探索,而探索过程中产生的大量行为数据,则需要机器人通过本能进行自我理解和自主打标。在橡木果的路线图上,这些经过触觉语义增强的数据,进一步训练技能模型 Magis


Magis 是一个通用的操作技能模型,旨在让机器人「一上手就能熟练」。在这一层面上,木果的做法不是从零采集海量操作视频,而是用触觉对现有视觉数据进行语义增强。


例如视觉上只看得到「香蕉」,触觉操作后,可以加上一些标注:香蕉重 120 克,质心偏左,表面粗糙,硬度中等。将这些力学语义叠加到视频帧上,再去训练技能模型。


图片


这样做的好处是训练数据需求大幅降低,据说可以从百万小时级别降低到几千、几万小时。引入了触觉相关的数据后,AI 模型也可以理解物理世界的力学属性,从而大幅提升学习效率和鲁棒性。


Magis 模型打磨成熟后,届时将成为跨本体、跨任务泛化的关键,让不同品牌的机械手共享同一个熟练的技能库。


自主决策模型 Natus 与技能模型 Magis 能让机器人具备执行的本能与技能。在橡木果的构想中,未来的高阶任务规划模型只需要作为「包工头」去指挥底层模型「盖房子」,而自身并不需要会打地基、铺地板、砌墙。任务的规划只需要理解环境,把整个任务切分成关键帧。操作的执行是自下而上,以端侧小模型的方式去逐渐形成的。



只有这样,机器人才能实现丝滑的执行效果,以及真正的泛化能力。


回归物理世界


橡木果机器人核心团队源自清华大学与哈佛大学,拥有横跨机械工程、神经科学、机器人前沿交叉学科背景。


橡木果发起人姜峣


在具身智能大模型公司还在靠精美视频融资、讲故事的阶段,橡木果的「具身本能」已经靠着极低的数据依赖度,迅速在真实产业中完成了闭环。


该团队在去年全面启动技术落地,切入了新能源汽车、快消品、生物医药等领域的「工业柔性化场景」。这些场景长期被「换产频繁、物料多样、调参痛苦」所困扰,传统的刚性自动化束手无策,而需要百万小时训练的 VLA 模型又成本太高。


橡木果的解决方案瞄准最具挑战的抓放、旋拧、插拔任务,因为冷启动的特性部署很快,而且能在端侧不断自我学习优化,收到了很好的效果。


自今年初开始,仅用半年时间,该公司便在国内 TOP 1 的化妆品企业生产线上完成了 POC(概念验证)落地,并直接实现了营收,5 月已经开始进入产线。该团队提出的方法无需海量喂养数据,机器人依靠触觉本能,一上线就能自适应处理各种形态各异、材质不一的化妆品瓶罐与包装。


大模型、大数据、大算力的叙事固然宏大,但物理世界有其自身的运行规律。


橡木果的技术路线向行业传递了一个清晰的信号:回归物理世界的第一性原理 —— 触觉、本能、肌肉记忆,或许才是通往物理 AI 的正确途径。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于“触觉冷启动会不会干掉 VLA”,我持保留意见。文章里说的抓取、插拔、旋拧确实很依赖触觉,但如果任务变成“按工单找出 A 类瑕疵品再分类处理”,视觉和语义理解还是绕不开。VLA 的问题不是没用,而是不能把所有物理交互都塞进一个黑箱里解决。

3 个赞

这个问题有点像问:有了反射神经,还要不要大脑?当然要。人碰到烫东西会缩手,这是本能;但你要做饭、切菜、摆盘,还是得有规划。机器人也是一样,触觉冷启动解决的是“手别太笨”,不是“脑子全会了”。

1 个赞

我理解这里的“不靠数据”应该不是完全不要数据,而是某些基础动作不需要为每个物体重新采集数据。比如拿瓶子、拿卡片可以靠触觉探索,但要学会某条产线的完整工艺流程,还是得有规则、示教或者历史数据。宣传里容易把这个边界说得比较模糊。

1 个赞

“算法会不会吃掉触觉”这个说法有点像“外卖会不会吃掉厨房”。算法可以优化决策,但饭总得有锅做。机器人要和物理世界接触,传感器就是它的锅碗瓢盆。

2 个赞

我回答“通用机器人还是底层能力”这个问题:工厂老板大概率先要后者。产线不是科幻片场景,不需要机器人会聊天、会倒咖啡,先把一个经常换包装、换物料的工位稳定跑起来,就已经能省很多钱。

2 个赞