普渡大学团队实现机器人学习的数据高效触觉表征

DatapiTHU · 2025 年1 月 13 日 21:17

普渡大学研究利用少量数据进行机器人触觉表征学习，LeTac-MPC实现反应式抓取，UniT构建统一触觉表征，提升机器人学习效率。

原文标题：模拟人类反应式抓取过程，普渡大学团队实现机器人学习的数据高效触觉表征

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247651350&idx=2&sn=40cc7f8d736183fb0100cf720c2375be&

冷月清谈：

普渡大学博士生徐政通分享了LeTac-MPC和UniT两项研究成果，旨在提升机器人触觉学习效率。

LeTac-MPC模拟人类反应式抓取，利用触觉传感器提取接触面积和位移信息，构建PD和MPC控制器。实验证明，LeTac-MPC在少量训练数据下即可泛化至不同物体，并具备抗干扰和高响应能力，但其简化假设限制了对某些复杂物体的适用性。

UniT则探索利用单一简单物体学习统一触觉表征，采用VQGAN模型学习并解码潜在空间信息。实验证明，UniT可以重建未见物体的触觉图像，并在6D姿态估计、3D姿态估计、物体分类和策略学习等下游任务中表现优异，展现了强大的泛化能力。

怜星夜思：

1、LeTac-MPC 和 UniT 这两种方法，在实际应用中分别更适合哪些场景？
2、文章中提到的数据高效性，除了可以降低训练成本，还有哪些潜在的优势？
3、未来如何进一步提升触觉表征学习的效率和性能？

原文内容

来源：HyperAI超神经
本文约3800字，建议阅读10分钟
本文分享了 LeTac-MPC、UniT 两大科研成果及其研究的技术路线。

在机器人自主学习的旅程中，触觉是不可或缺的一环，它赋予机器感知物理世界细节的能力。然而，传统触觉感知系统的训练往往依赖于海量数据采集，成本高昂且效率低下。随着数据驱动方法的限制逐渐显现，如何通过高效的数据表征来提升触觉学习的性能，成为当下机器人研究的焦点之一。

近年来，基于自监督学习、稀疏表示以及跨模态感知的创新技术迅速崛起，为触觉表征的简化与优化提供了新的思路。

ergoCub 机器人，专为与人类进行人体工程学交互而设计

这一领域的突破，不仅能够让机器人在有限数据下实现复杂任务的快速适应，还能显著提升它们与人类及环境交互的能力。在这场革命性的变革中，数据高效的触觉表征技术正为机器人感知与学习打开新的大门。

2024年12 月 18 日，由具身触觉社区主办、HyperAI超神经协办的「新锐论前沿」第四期线上分享活动中，普渡大学三年级博士生徐政通以「面向机器人学习的数据高效触觉表征」为题，向大家分享了 LeTac-MPC、UniT 两大科研成果及其研究的技术路线。

小编在不违原意的前提下，对徐政通博士的本次深度分享进行了整理汇总。

可微分优化是机器人学习中的有力工具

优化是机器人领域中一项非常重要且高效的工具，在轨迹规划和人机交互等方面展现出了许多优秀成果。在讨论优化之前，首先需要引入一个概念：可微分优化 (Differentiable Optimization)。为了解释这一概念，我们先从优化问题的通用形式 (General Formulation) 开始。

优化的核心思想是针对具体应用场景构建目标函数 (Cost Function)。这些目标函数通常蕴含大量的先验知识，并可能受到一系列约束条件的限制。因此，构建优化问题时，经常需要在目标函数中添加这些约束条件。

接下来，我们将重点讨论一种基础的优化形式——二次规划 (Quadratic Programming, QP)，其是优化领域中最简单的形式之一，在实际应用中仍然具有广泛的场景。

在此基础上，我们引入「可微分」(Differentiable) 的概念。所谓可微分，指的是在神经网络中，一个层的输出可以对其内部参数进行偏导数计算。引入可微分二次规划 (Differentiable QP) 的意义在于，当我们希望在神经网络中添加一个优化层时，必须确保该层是可微分的。只有这样，优化层的参数才能在网络训练与推理过程中通过梯度信息自然更新和流动。因此，如果我们能让二次规划问题变得可微分，就能够将其融入神经网络，使之成为网络的一部分。

更进一步，机器人学习中的优化问题往往依赖于具体场景中的先验知识，例如目标函数和约束条件的设计。通过构建一个可微分的优化问题，我们可以充分利用这些先验知识，将其有效地融入模型设计。然而，在某些情况下，我们可能无法用模型化的方法描述问题（即无法构建基于模型的表达形式）。对此，可以尝试通过数据驱动的方法，让模型自行学习这些部分的规律。这正是可微分优化问题的核心思想。

综上所述，二次规划 (Quadratic programming) 问题具有可微分的特性，因此我们可以将其作为神经网络的一部分加以引入。这种方法不仅为网络的设计提供了新的工具，也为机器人学习中的模型设计注入了更多的灵活性和可能性。

LeTac-MPC：基于触觉信号的反应式抓取与模型控制方法研究

我们提出了一种称为 reactive-grasping（反应式抓取）的概念，通过观察人类抓取物体的过程，我们发现，人类通常通过手指感知物体的属性和状态，并根据反馈调整手指的动作。例如：

* 当抓取一个鸡蛋时，我们感知到鸡蛋坚硬但脆弱，因此会使用适当的力避免损坏。当手指反馈压力增大时，我们会减弱抓取力度。

* 抓取一片面包时，由于面包较软，手指的动作会相应调整以防止挤压变形。

* 抓取一瓶牛奶时，如果摇晃瓶子，牛奶的晃动会改变物体的惯性。手指会感知这些变化并动态调整抓取动作，避免瓶子因惯性作用滑落。

模仿反应式抓取机器人的实现

借鉴人类的抓取过程，我们探索如何通过基于模型的方法 (model-based approach) 来模拟这一过程。借助基于视觉的触觉传感器 (如 GelSight)，我们可以从原始图像中提取关键特征，通过简单处理生成深度图像或差分图像，并通过阈值化操作计算接触面积 (contact area)。接触面积可以反映施加的力的大小，力越大，接触面积越大；力越小，接触面积越小。

此外，利用光流 (optical flow) 技术追踪标记点 (marker) 的移动，还可以获得另一个重要量：位移 (displacement)，这一量与侧向力相关。结合这些信号，我们可以构造基于比例-微分 (PD) 控制器的控制方法，实现触觉反应式抓取(tactile-reactive grasping)。

从 PD 控制器到 MPC 控制器

除了 PD 控制器，我们还设计了基于模型预测控制器 (MPC) 的抓取方法。MPC 的控制目标与 PD 控制器类似，但其特点是基于线性假设和 Gripper 模型。例如，先引入线性假设 (Linear Assumption) 和单自由度夹持器运动模型 (Single Degree of Freedom Gripper Motion Model)，然后将二者统一建模，最终构造出基于 MPC 的控制律 (control law)。

MPC 控制器的应用与局限性

MPC 控制器 (MPC controller model) 在多个场景中表现优异。在这里我列举两个应用。第一个应用是，在拖动香蕉时，抓手可根据香蕉的动态反馈调整力度，确保抓取稳定。当外力移除（如人手松开香蕉），控制器会逐渐收敛至稳定状态。

论文地址：https://ieeexplore.ieee.org/document/10684081

第二个应用是我们组另外一位成员在 IROS 上提出的成果，即利用多自由度抓手实现复杂操作任务，并沿用了我们提出的 MPC 控制器。

论文地址：https://arxiv.org/abs/2408.00610

然而，基于模型的控制器存在一定局限性，难以泛化到现实生活中大多数日常物体。这主要源于建模过程中的简化假设，这种简化和假设往往对一些现实物体无法起作用。如下图所示，对于软物体或形状复杂的物体，难以通过简单的阈值设定精确提取接触面积；而对于牛油果、饼干这种比较硬的物体，其触觉信号 (tactile image) 较强，就可以精确地提取接触面积。

LeTac-MPC 控制器的三大优势

为解决这一问题，我们通过数学方法 (如 Cholesky factorization) 确保优化问题的可解性，从而稳定控制器的训练过程，最终提出了 LeTac-MPC。

下图展示的是最直观的训练结果，我们在仅包含 4 种不同硬度物体的数据集上进行训练，这些物体具有不同的硬度 (stiffness)。尽管训练数据有限，但我们训练的控制器可以推广到具有不同大小、形状、材料和纹理的日常物品上。这种基于小样本训练的泛化能力是控制器的一大优势。

其次，我们训练的控制器对抓取的物体具有抗干扰性，可以实时地调整抓取的方式和力度，从而使被抓取的物体不会因外界的干扰而掉落。

第三，我们训练的控制器具有非常高的响应能力。如下图所示，在剧烈运动或惯性变化场景中（如装有碎屑的盒子），控制器可快速响应物体的动态变化。

UniT：用于机器人学习的统一触觉表示

在上述研究中，我们实现了控制器的泛化能力。那我们能否利用单一的简单物体来学习统一的触觉表征？

如下图所示，单一的简单物体可以是诸如小球或扳手 (如 Allen Key) 之类的几何简单的物体。由于这些物体的触觉图像 (tactile image) 相对简单，我们的方法也较为简洁。

具体而言，我们没有设计全新的网络结构，而是发现通过 VQGAN 可以有效学习具备泛化能力的触觉表征。

在训练阶段，我们采用 VQGAN 模型学习触觉表征。在推理阶段，通过简单的卷积层对 VQGAN 的 latent space（潜在空间）进行解码，从而连接到下游任务（如感知或策略学习）。

论文地址：https://arxiv.org/abs/2408.06481

重建实验

为验证表征的有效性，我们在 Allen Key 和 Small Ball 上进行了重建实验。

首先是 Allen Key 实验。如下图所示，尽管训练数据仅来自 Allen Key，但我们依然可以通过 latent space 重构出未见物体的原始图像，说明该 latent space 包含了绝大多数原始图像的有用信息。与 MAE 对比时，我们发现 MAE 很难准确重构原始图像，这表明在解码过程中，MAE 可能存在信息损失。

第二个是 Small Ball 实验。如下图所示，虽然训练数据仅来自 Small Ball，且重建效果不如 Allen Key，但模型仍能一定程度上重建复杂物体的原始信号。

此外，latent space 不仅捕捉了触觉几何信息（如形状和接触构型），还隐式包含了标记点的移动信息。例如，通过对原始图像和重建图像的标记点追踪，我们发现二者在 Marker Tracking 上的表现非常接近。

下游任务与基准测试

我们对 UniT 方法的表征能力进行了多个基准测试，包括 6D 姿态估计、3D 姿态估计和 classification benchmark。

对于 6D pose estimation（姿态估计），我们输入了一张触觉原始图像（如 USB 插头的触觉图像），来预测其位置 (position) 和旋转 (rotation)。结果表明，与 MAE、BYOL、ResNet 和 T3 方法对比，UniT 模型在准确性上优于其他方法。

对于 3D pose estimation，我们则仅预测物体的旋转姿态。如下图所示，相对于其他的方法，UniT 有比较好的表现。

其次，我们也做了 classification benchmark（分类基准）。数据集来源于 CMU 的 YCBSight-Sim。虽然数据集较小，但 UniT 在分类任务中展现了良好的性能。尤其是在单一物体上学习触觉表征后，能够自然泛化到其他未见物体的分类任务。例如，仅在 master chef can 上训练的表征，可成功应用于 6 种不同物体的分类，并取得优异效果。部分单一物体训练的表征甚至超过了大量物体训练的表征性能。

策略学习实验

我们进一步将触觉表征应用于策略学习 (policy learning) 实验，验证其在复杂任务中的表现。实验使用了 Allen Key 数据进行训练，并评估了以下 3 项任务：

* Allen Key Insertion （见图左）：精准插入任务，对精度要求极高。

* Chips Grasping （见图中）：处理易碎物体的精细抓取任务。

* Chicken Legs Hanging （见图右）：双臂任务，涉及长时间的动态抓取与控制。

我们对 3 种不同的方法进行 benchmark，这 3 种方法分别是：Vision-Only (仅依赖视觉信号)、Visual-Tactile from Scratch（视觉与触觉联合训练）、Visual-Tactile with UniT（采用 UniT 提取的触觉表征进行策略学习）。如下图所示，使用 UniT 表征的策略学习方法在所有任务中表现最佳。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SapphireCat928 · 2025 年1 月 14 日 02:52

我觉得数据高效性可以使机器人更快地适应新的环境和任务，因为不需要花大量时间收集和训练数据，有利于机器人的快速部署和应用。

Crux18l · 2025 年1 月 15 日 14:31

从学术角度来看，LeTac-MPC 偏向控制领域，对模型的精度和实时性要求较高，适合工业机器人、精密仪器操作等。UniT 则更偏向表征学习，旨在提取普适的特征，适合需要泛化能力的场景，例如服务机器人、家庭助手等。

Phantom20m · 2025 年1 月 16 日 07:32

可以考虑结合多模态信息，比如视觉、听觉等，来构建更全面的物体表征，这样机器人就能更好地理解和交互 with 物理世界。

CloudySky415 · 2025 年1 月 16 日 12:42

我觉得可以探索更先进的自监督学习方法，或者结合强化学习，让机器人在与环境交互中自主学习触觉表征，这样学习效率更高，也更贴近实际应用场景。

Pulse48v · 2025 年1 月 17 日 02:04

还能防止过拟合！数据量少，模型就不会过度拟合训练数据，泛化能力自然就上去了，就像小学奥数冠军，到了大学未必还能那么厉害。

Beacon26j · 2025 年1 月 17 日 05:32

我觉得LeTac-MPC更适合需要实时反馈和控制的场景，比如抓取易碎品或者需要精细操作的任务。而UniT可能更适合需要对不同物体进行识别和分类的场景，或者需要进行策略学习和泛化的场景，因为它学习的是一个统一的触觉表征。

LaughingDolphin634 · 2025 年1 月 18 日 00:52

数据高效性除了降低训练成本外，还能减少对大量高质量标注数据的依赖，这在某些特定领域，比如医疗机器人，获取大量数据和标注非常困难，数据高效性就显得尤为重要。

LuckyRabbit007 · 2025 年1 月 18 日 17:09

从仿生学的角度出发，研究人类触觉感知机制，或许能为触觉表征学习提供新的思路。毕竟，人手是目前最高效的触觉感知系统，没有之一。

Fable314z · 2025 年1 月 20 日 04:41

LeTac-MPC，一听这名字就知道是做控制的，估计对实时性要求比较高，像抓个鸡蛋啥的肯定没问题。UniT嘛，感觉更像是搞识别的，像机器人整理玩具，估计用UniT效果会不错。