ViTacFormer:伯克利等团队创新视触觉融合技术,赋能机器人精巧操作新高度

ViTacFormer融合视触觉与未来预测,让机器人操作更灵巧稳定,成功做汉堡展现潜力。

原文标题:人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手

原文作者:机器之心

冷月清谈:

近日,UC伯克利、北京大学、Sharpa等机构的研究人员推出了名为ViTacFormer的统一框架,旨在显著提升机器人在灵巧操作中的精度、稳定性和持续控制能力。当前的机器人操作方法在复杂环境(如遮挡、光照变化)下,单一视觉感知常失效;同时,触觉信息也多被作为静态输入,缺乏有效的多模态融合机制,且忽视了对未来触觉变化的预测。

为克服这些挑战,ViTacFormer核心在于构建一个跨模态表征空间,并通过多层跨注意力模块在策略网络的每一步中,动态融合视觉与触觉信号,实现对接触语义与空间结构的联合建模。更具创新性的是,该框架引入了一个自回归触觉预测分支。这使得模型在推理时能基于当前观测预测未来的触觉反馈信号,从而实现从“感知当前”到“预测未来”的关键转变,显著提升了动作策略的稳定性与精度。

实验评估显示,ViTacFormer在多项短程灵巧操作任务(如插销、拧瓶盖)中,相比现有方法成功率平均提升超过50%。在长时任务如11阶段连续制作汉堡的过程中,ViTacFormer表现出卓越的稳定性与动作连贯性,持续操控时间达到约2.5分钟,整体成功率超过80%。这项研究的成功预示着机器人未来在精细、复杂操作任务中将发挥更大作用,并有望推动未来厨房等领域的智能化发展。

怜星夜思:

1、人形机器人做汉堡是小事,但文章里说未来厨房可能不需要人类了。大家怎么看这种趋势?机器人替代人类工作,到底是好事还是坏事?
2、ViTacFormer强调「未来触觉预测」的重要性。但实际应用中,预测未来是不是真的靠谱?比如,如果汉堡的肉饼突然散了,或者生菜滑了,这种突发情况机器人还能准确“预判”和应对吗?
3、汉堡制作只是一个起点。大家觉得ViTacFormer这类技术,除了厨房,未来还能在哪些领域发挥巨大作用?它有没有什么潜在的局限性,使得某些任务它还是做不了?

原文内容


近日,一个「人形机器人做汉堡」的视频火爆全网!


这个具备 [主动视觉]、[高精度触觉] 以及 [高自由度灵巧手] 的人形机器人,首次实现了 2.5 分钟连续自主控制,从原材料开始,一步步制作出完整汉堡,并递到你的盘子里。


真正让机器人「看得见」、「摸得准」、「动得巧」,未来厨房可能真的不需要人类了!



灵巧操控是机器人实现类人交互的关键能力,尤其在涉及多阶段、细致接触的任务中,对控制精度与响应时机提出了极高要求。尽管视觉驱动的方法近年来快速发展,但在遮挡、光照变化或复杂接触环境下,单一视觉感知常常失效。


触觉感知为机器人提供了与环境交互的直接反馈,在判断接触状态、施力时机等方面扮演着不可替代的角色。然而,当前大多数方法仅将触觉信息作为静态输入进行融合,缺乏真正有效的多模态联合建模机制。更为关键的是,现有方法往往只关注当前的触觉状态,忽视了对未来触觉变化的预测。这种短视导致机器人在连续操作中难以提前准备、策略难以稳定,特别是在需要时序感知和力觉判断的任务中表现不佳。


尽管已有研究尝试引入触觉信息提升策略表现,但往往停留在简单拼接或辅助通道的层面,缺乏结构性设计,难以充分发挥视触结合的潜力。


为应对上述挑战,来自 UC 伯克利、北京大学、Sharpa 等机构的研究人员提出 ViTacFormer,一个融合视觉与触觉信息,并引入未来触觉预测机制的统一框架,专为提升灵巧操控中的精度、稳定性与持续控制能力而设计


论文作者包括我们熟悉的 UC Berkeley 大牛 Pieter Abbeel 和 Jitendra Malik,以及他们的学生,北大校友、UC Berkeley 博士生耿浩然 (项目 lead)。



  • 论文标题:

    ViTacFormer: Learning Cross-Modal Representation for Visuo-Tactile Dexterous Manipulation

  • 论文主页:

    https://roboverseorg.github.io/ViTacFormerPage/

  • Github 链接: 

    https://github.com/RoboVerseOrg/ViTacFormer



这项研究获得了业内人士的高度认可,多位知名学者和企业家讨论和转发,其中就包括 Transformer 作者之一、GPT-4 作者之一 Lukasz Kaiser。



ViTacFormer 介绍


方法设计:跨模态注意力与触觉预测


ViTacFormer 核心思想是构建一个跨模态表征空间,通过多层跨注意力模块在策略网络的每一步中动态融合视觉信息与触觉信号,实现对接触语义与空间结构的联合建模



与传统方法仅依赖当前触觉观测不同,ViTacFormer 引入了一个自回归触觉预测分支,以强化模型对未来接触状态的建模能力。该模块强制共享表征空间编码可用于预测的触觉动态特征,使策略不仅「看得见、摸得到」,还能 预判下一步触感变化


在推理过程中,模型首先基于当前观测预测未来的触觉反馈信号,再将其用于指导动作生成,从而实现由 「感知当前」 向 「预测未来」 的关键转变。我们通过实验证明,这种基于未来触觉信号的前瞻式建模方式显著提升了动作策略的稳定性与精度。


系统架构:双臂灵巧手与视触觉数据采集


ViTacFormer 基于一套双臂机器人系统进行数据采集与策略评估。系统由两台 Realman 机械臂组成,每条机械臂搭载一只 SharpaWave 灵巧手(开发版本),具有 5 指结构和 17 个自由度,支持高自由度的多指动作控制。每个手指的指尖均配备分辨率为 320×240 的触觉传感器,用于实时记录接触反馈。


视觉感知部分包括两种视角:手腕安装的鱼眼相机提供近距离局部观察以及顶部 ZED Mini 立体摄像头提供全局场景信息。视觉与触觉数据同步记录,覆盖机器人执行过程中的关键状态变化。



在专家示范采集过程中,团队使用一套基于机械外骨骼手套的遥操作系统。操作者通过手套与灵巧手形成机械联动,并佩戴 VR 头显获取第一人称沉浸式反馈。该界面集成了立体顶视图、双腕局部视图与实时触觉图像叠加,支持自然直观的操控体验,有效提升了接触密集型任务的示范质量。


实验评估:真实任务中的操作性能验证


基线比较:在短程灵巧操作任务中的表现


团队在四项真实的短程灵巧操控任务上评估了 ViTacFormer 的性能,包括插销(Peg Insertion)、拧瓶盖(Cap Twist)、擦花瓶(Vase Wipe)和翻书(Book Flip),每项任务均具有明确的接触依赖性与细粒度控制需求。


实验设置中,每个任务仅使用 50 条专家轨迹进行训练,并在测试阶段独立推理 10 次,以评估模型在有限数据条件下的策略学习能力与执行稳定性。



团队将 ViTacFormer 与四个当前代表性的模仿学习基线方法进行比较:Diffusion Policy (DP)、HATO、ACT 和 ACTw/T。DP 和 ACT 分别代表当前主流的视觉模仿策略,不使用触觉信息;而 HATO 和 ACTw/T 则在输入中引入触觉信号,但均采用直接拼接或简单 token 融合的方式,未进行深入建模。


相比之下,ViTacFormer 采用跨模态注意力与自回归预测机制,充分挖掘视觉与触觉之间的动态依赖关系。



从结果来看(见上表),ViTacFormer 在所有短程灵巧操控任务中均显著优于现有方法,相比仅使用视觉或简单融合触觉的模型,成功率稳定提升,平均增幅超过 50%。这表明跨模态注意力与未来触觉预测在提升操作稳定性与精度方面具有关键作用。


长时任务评估

稳定完成 11 阶段连续操作流程


为进一步验证 ViTacFormer 在复杂任务中的执行能力,团队对其在一项长时灵巧操作任务中进行评估。


该任务包括 11 个连续子阶段,模拟制作汉堡的全过程,涵盖多指协调、精细接触与长时间持续控制等挑战,对策略的稳定性与动作连贯性提出了极高要求。



实验结果显示,ViTacFormer 能够稳定完成整个操作序列,持续操控时间达到约 2.5 分钟,整体成功率超过 80%。在长时间、多阶段的任务中,系统表现出良好的动作连贯性和接触控制能力,充分体现了视触觉融合策略在复杂任务执行中的优势。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

关于机器人替代人类工作这件事,我个人倾向于认为它会是一把双刃剑。从积极的一面看,重复性、危险性或劳动强度大的工作被机器人取代,无疑能解放大量人力,让他们有机会从事更具创造性、更需要人际交流或情感投入的工作。生产效率会大大提高,很多服务可能会变得更便捷、更便宜。但从消极角度,短期内一定会带来就业结构的大调整,如果社会保障和教育培训体系跟不上,一部分人可能面临失业和技能不匹配的困境。关键在于,我们人类社会能否提前做好准备,将这种技术变革的负面影响降到最低,并引导人类社会向更高级、更有意义的生产生活方式转型。

核心是“灵巧操控”和“对未来接触的感知”,所以应用场景超级广。我首先想到的是工业领域的柔性制造,比如给线路板插元器件、缠绕各种线缆,这可比做汉堡复杂多了,但概念上是一致的。还有就是医疗康复辅具,给病人做一些精细的按摩或者物理治疗。再远点,文物修复、珠宝加工这种对精度要求极高的工作,它也能派上用场。

但提到局限性,我觉得最大的局限在于“知识”的获取成本和其“决策”的透明度。它现在是在模仿人类专家,但如果一个任务没有足够的专家示教,或者任务场景变化莫测,导致数据量不够或者无法涵盖所有可能性,那它就很难学好。而且,虽然它能“预判”,但我们人类很难知道它是基于什么逻辑进行“预判”的,这在一些高风险领域可能成为信任障碍。

ViTacFormer的核心突破在于结合了高精度的视触觉感知和未来的行为预测,这使其在需要精细操作和柔软物体交互的领域具有巨大潜力。除了厨房,它可以在医疗领域,如微创手术中的组织操作、辅助缝合;在精密制造和装配领域,例如电子元器件的细致组装、柔性材料的处理;在养老护理方面,进行辅助喂食、穿衣等精细照护任务;甚至在太空探索或深海作业等危险环境中进行样本采集或设备维护。至于局限性,我认为主要在于泛化能力和处理非结构化、高度抽象任务的能力。它可能难以理解并执行那些需要高级推理、情感互动、审美判断或应对无限未知变数的任务,例如艺术创作、教学辅导、心理咨询等。此外,高精度的传感器和灵巧手的成本、维护难度,以及对大量高质量专家示范数据的依赖,也可能是其推广应用中的潜在瓶颈。

嗯,这个问题我觉得取决于角度。如果只看汉堡这类标准化产品,机器人做出来可能真的比人更稳定、高效。但这会带来新的思考:那些带有“人情味”的、需要随机应变的、或者纯粹是情感连接的服务,机器人能替代吗?比如一个会聊天的厨师,或者一道有“妈妈的味道”的菜。我更倾向于认为,机器人会帮助人类做一些我们不想做或者做不好的事情,而人类会把重心放在更具创新性、艺术性、社交性的领域,甚至,我们需要重新定义“工作”的含义。至于机器人失业了会不会也来抗议,那可能就是下一代人工智能要面对的问题了。

从技术角度来说,ViTacFormer的“未来触觉预测”机制,本质上是通过学习大量的专家示范数据,来建模和推断物体在特定操作下的动态接触行为。它能“预判”的,主要是那些在训练数据中出现过,或者可以通过现有模型泛化出的、有一定规律的“可预测未来”。对于您提到的肉饼突然散开、生菜突然滑落这种低概率、高度不确定或从未见过的突发情况,目前的预测模型确实面临巨大挑战。它们可能无法准确地“预判”这种“黑天鹅事件”,甚至可能因为数据分布外的情况而导致策略崩溃。要应对这类突发情况,机器人需要更强大的实时环境理解、异常检测、快速决策和高鲁棒性恢复机制,这通常需要结合强化学习、在线适应,甚至人类在环干预等更高级别的智能。

我觉得吧,机器人说的“预判”,更像是我们人类常说的“经验和预期”。我做汉堡,凭经验知道肉饼大概有多重、煎多久会熟、拿起它的时候大概会有多硬。机器人通过大量的训练,学会了这些“经验”。如果肉饼散了,或者生菜滑了,这些都属于“预期之外”的情况。机器人可能会在第一时间发现触觉反馈与模型预期的不符,然后尝试通过学习到的备用策略进行微调或纠正,但如果偏离太大,很可能就会任务失败了。就像你玩游戏,可以预判敌人的走位,但如果突然掉线了,那可就没法预判了。这种“突发”,往往是需要更高级别的“问题解决”能力,不是简单的“预测”就能搞定的。

哈哈,未来厨房不需要人类?那太好了!我巴不得机器人能帮我洗碗、做饭、收拾屋子呢,尤其是不喜欢做饭的朋友们,这简直是福音啊!想想看,24小时都有热腾腾的汉堡可吃,而且可能更卫生、更标准化,价格也可能更低。这样我们就有更多时间去追剧、去玩游戏、去健身,或者干脆多睡一会儿。那些重复性的劳动就交给机器人吧,反正它们也不会抱怨累,简直是“社畜”们的救星啊!

嘿,这技术简直是“万金油”啊!你想啊,只要是需要“巧手”的活儿,它都能来试试。组装手机、修理精密仪器、给老人穿衣服、甚至去实验室里做那些超级精密的生物实验,或者在危险的废墟里搬动脆弱的物品,它都能大显神通!你看,它不仅能“看”能“摸”,还能“预判”,简直是“全能型选手”!

要说它做不了啥,我觉得它肯定做不了我的专属情感倾诉师,或者帮我写出爆款小说。这些需要“心”和“灵感”的活儿,机器人再牛也替代不了。还有啊,它要是去当Tony老师剪头发,估计得把人头剪成菠萝头吧,哈哈!太随机应变、太考验审美和沟通的活儿,它现在肯定不行。

你这个问题问到点子上了!“预测未来”听起来很唬人,但机器人又不是算命先生,它哪能真的预知一切?它能预判的,大概就是“根据我当前的动作,预期接下来这个肉饼会以怎样的姿势碰到我的手指”,或者“盖瓶盖时预判瓶盖扣上那一瞬间的阻力变化”。真要遇到肉饼碎成渣渣,或者生菜表演“空中飞人”,它估计也得懵圈。就像你做饭突然油锅着火,你预判不到吧?机器人也一样,它现在还只是个“学生”,能预判点常规操作就不错了,想让它应对所有紧急情况,那得等它“读到博士后”才行!