清华&南洋理工大学联合发布:融合语言模型的多模态触觉传感器SuperTac,助力机器人触觉感知

清华大学&南洋理工大学联合团队推出SuperTac,一种多模态触觉传感器,结合触觉语言模型DOVE,提升机器人触觉感知能力,使其更接近人类水平。

原文标题:国内首篇!融合语言模型的多模态触觉传感器,推动机器人触觉迈向人类水平

原文作者:机器之心

冷月清谈:

清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,从鸽子卓越的多光谱视觉和非成像感知机制中获得灵感,研发出了一种仿生多模态触觉传感器 SuperTac。该系统融合了多光谱成像、摩擦电感测与惯性测量,并通过构建 8.5B 参数的触觉语言模型 DOVE,实现了触觉信号从底层感知到高层语义推理的突破。

SuperTac 的硬件设计模仿了鸽子的生物学特征,集成了多光谱成像模块,覆盖了从紫外到中红外的超宽频段,使机器人能够解析热辐射、荧光位移等深层物理信息。同时,传感器还嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU),以感知材质极性、震动及空间姿态。

SuperTac 的核心竞争力在于其 1 mm 厚的光场调制多层感知皮肤,通过涡旋线电极设计、单向透视反射层和紫外荧光标记层,实现了对物体纹理、形变和颜色的同步捕捉。DOVE 模型采用分层架构设计,通过 CLIP 模型将异构传感器信号转化为通用的图像表征,并利用 Vicuna 骨干网络进行微调,使其能够结合常识对触觉指令进行复杂推理。

SuperTac + DOVE 模型的结合,使得机器人能够像人类一样理解和推理触觉信息,并在抓取、垃圾分拣等任务中表现出卓越的性能。该研究为机器人触觉提供了多个富有前景的发展方向,包括传感器微型化、低功耗芯片和持续增强的泛化能力。

怜星夜思:

1、SuperTac 传感器模仿鸽子的感知系统,这种仿生设计思路在机器人研究中还有哪些应用?其优势和局限性是什么?
2、DOVE 触觉语言模型如何将触觉信号转化为机器人可理解的语义信息?这种模型的泛化能力如何,能否适用于不同的机器人和应用场景?
3、SuperTac 传感器在垃圾分拣任务中的应用,体现了机器人触觉感知在哪些方面的潜力?未来,触觉感知还可以在哪些领域发挥更大的作用?

原文内容


论文第一作者为清华大学博士、南洋理工大学博士后李寿杰,清华大学博士生吴同和人工智能硕士生徐建乐。论文通讯作者包括清华大学深圳国际研究生院副教授丁文伯,大连理工大学教授解兆谦,新加坡国立大学助理教授吴昌盛和香港城市大学教授于欣格。


随着机器人技术从「预设程序执行」向「具身智能交互」跨越,触觉感知作为理解物体属性、实现精细操作的核心感测方式,其重要性日益凸显,但当前系统在感知维度、分辨率及信号解读能力上仍远逊于人类,导致机器人往往处于「有感无知」的状态。


在此背景下,清华大学深圳国际研究生院丁文伯团队联合无界智航(Xspark AI)及多所国内外科研机构,从鸽子卓越的多光谱视觉和非成像感知机制中获得灵感,研发出了一种仿生多模态触觉传感器 SuperTac


该系统将多光谱成像、摩擦电感测与惯性测量融为一体,并通过构建 8.5B 参数的触觉语言模型 DOVE,实现了触觉信号从底层感知到高层语义推理的突破。


相关成果作为封面元素发表于《Nature Sensors》第一期,也是国内以第一单位在该期刊发表的首篇,标志着机器人触觉感知向「人类水平」迈出了关键一步。



  • 论文标题:Biomimetic multimodal tactile sensing enables human-like robotic perception

  • 论文链接: https://www.nature.com/articles/s44460-025-00006-y


图 1 Nature Sensors 第一期封面图,SuperTac 作为核心元素在封面上进行了展示(右下角)


一、仿生逻辑:
从鸽子眼球到多模态感知架构

鸽子拥有自然界最复杂的感知系统之一,SuperTac 的硬件设计对应了其生物学特征。


图 2 仿生学设计:受鸽眼启发的高分辨率多模态触觉传感器


多光谱视觉的迁移:从视锥细胞到多通道相机


鸽子的视网膜包含多种视锥细胞,不仅能感知可见光,还拥有人类不具备的紫外线(UV)感知能力。


SuperTac 集成了小型化的多光谱成像模块,覆盖了从紫外(390 nm)、可见光(400–700 nm)到近红外(940 nm)及中红外(5.5–14.0 μm)的超宽频段。


通过引入超宽频段成像,机器人能够在单一交互中同时解析热辐射、荧光位移等深层物理信息,实现了对物体形状、纹理、颜色和温度的全面表征。


非成像感知的映射:从地磁感应到 TENG / IMU


鸽子能通过视网膜中的隐花色素等分子感知地磁场,这是一种不依赖图像的物理感知。SuperTac 在 1 mm 厚的皮肤内嵌入了摩擦纳米发电机(TENG)和惯性测量单元(IMU)。


TENG 利用接触起电原理,根据不同物体的电负性差异识别材质(准确率 95%),并实现 15 cm 内的接近觉感知。IMU 模拟生物的本体感受,捕捉 0–60 Hz 的振动及碰撞信号。通过将摩擦电与惯性信号与光场调制耦合,传感器无需密集电极阵列即可扩展出对材质极性、震动及空间姿态的感知能力。


二、核心机制:
光场调制的「智能感知层」

SuperTac 的核心竞争力在于其厚度仅为 1 mm 的光场调制多层感知皮肤。皮肤最外层的导电层采用透明的 PEDOT:PSS,通过丝网印刷技术在具有优异拉伸性能的 TPU 薄膜上形成涡旋线电极设计。这种涡旋设计能提供均匀的电学信号,结合摩擦起电机制,使皮肤在接触不同电负性物体时产生截然不同的电学反馈,从而实现高精度的材质分类与 15 cm 范围内的接近觉探测。


图 3 多光谱机理


在导电层之下,单向透视反射层充当了光学开关,其透明度受两侧光强差调节。当内部 LED 开启形成「触觉模式」时,内侧光强占据主导,反射层变为不透明状态,CMOS 单元聚焦捕捉皮肤表面的微观纹理与形变;当内部光源关闭,反射层随之变为透明,允许外部可见光透射,使传感器能够直接获取物体的 RGB 颜色信息。


紧邻其下的紫外荧光标记层则利用在近红外波段不可见但在紫外光下激发的荧光标记,实现了形变监测与物体纹理检测的解耦,确保在复杂抓取过程中能够同步捕捉切向滑动与表面细节。


图 4 相关测试指标


三、触觉语言大模型:
8.5B 参数背后的多模态融合架构

为了构建跨模态物理信号与自然语言空间的统一表征对齐,DOVE 采用了分层架构设计,其底层骨干由预训练的大语言模型 Vicuna 构成,为系统提供了强大的语言理解与逻辑推理基础。


为了处理极其复杂的触觉输入,系统并行集成了四组预训练的 CLIP(对比语言—图像预训练)模型作为模态编码器,将图像化的触觉特征(包括颜色、纹理、温度和材质信号)提取为深层特征向量。


图 5 触觉语言大模型 DOVE


DOVE 的训练通过三阶段策略实现从底层感知到高层认知的递进:首先利用 CLIP 将异构传感器信号转化为通用的图像表征;随后通过投影层将触觉特征精准对齐至语言模型空间;最后针对 Vicuna 骨干网络进行微调,使其能够结合常识对触觉指令进行复杂推理。


四、应用场景:
从物理触碰到语义逻辑的跃迁

SuperTac 提供的多模态底层数据通过 DOVE 模型的深度解析,成功实现了从单纯的「物理感知」向高层「语义认知」的跨越,赋予了机器人类人的具身交互能力。


图 6 SuperTac + DOVE 的应用场景


在基础的识别维度,DOVE 能够实时融合传感器采集的异构多模态数据,为操纵目标建立起全方位的「物理画像」。例如,在抓取实验中,面对一个未知杯子,DOVE 能准确地将其感官印象转化为人类可理解的语言:「黄色,室温,表面具有规律排布的凸起纹理,判定为金属材质」。


最高层级的应用体现在常识指引下的功能决策与推理。DOVE 不仅解析当前的物理数据,还能将实时的触觉反馈与预训练的大模型常识相结合,从而推断物体的潜在功能并做出逻辑决策。


在极具挑战性的垃圾分拣任务中,这一能力得到了充分验证:当机器人接触到乱序堆放的杂物时,DOVE 能够根据触觉反馈进行逻辑建模。例如,它会推论道:「该物体具有典型的 PET 物理特征,结合其轻薄的结构,判定为废弃的塑料饮料瓶;基于环保常识,建议将其放入可回收垃圾桶」。


五、未来方向

本研究为机器人触觉提供了多个富有前景的发展方向:硬件方面通过传感器微型化、低功耗芯片及高集成封装,提升机器人手内操作的灵活性并解决高负载下的散热稳定性难题;认知层面则依托 DOVE 模型的模态无关框架,通过优化传感器配置与专用数据集来持续增强系统的泛化能力,从而为实现自然、高效的人机交互奠定坚实基础。


图 7 安装 SuperTac 的灵巧手

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

章鱼的触手感觉也很厉害啊,既灵活又有强大的感知能力。要是能模仿章鱼触手的结构和神经控制方式,做出更灵巧的机器人手臂,感觉很多精细操作都能实现了,比如文物修复或者微型器件组装。

不妨看看鲨鱼的电感受器,它们能感知猎物微弱的生物电场。如果机器人也能拥有这种能力,就能在水下或者复杂的环境中更精准地定位目标,甚至可以用于医学领域,辅助医生进行更精确的手术操作。

不懂就问,这个触觉信号转化成语义信息的过程,是不是有点像咱们人类摸东西,然后大脑告诉我们这是什么?如果是的话,那以后机器人是不是也能像人一样,“摸”出东西的好坏了?

说到垃圾分类,我突然想到,如果能把这个技术应用到盲人身上,是不是可以通过触觉来“看”世界了?感觉会很有意义!

这让我想到了图像识别领域的 CLIP 模型,也是通过对比学习的方式,将图像和文本联系起来。DOVE 模型借鉴 CLIP 的思路,我觉得是很合理的。泛化能力确实是个挑战,需要考虑如何处理不同机器人硬件的差异,以及不同应用场景下的触觉特征变化。感觉迁移学习会很有用。

DOVE 模型的核心在于将触觉信号转化为特征向量,然后与预训练的语言模型进行对齐,这样机器人就能像理解语言一样理解触觉了。至于泛化能力,我觉得取决于训练数据的多样性。如果训练数据只包含特定类型的物体和操作,那么在新的场景下可能表现不佳。需要大量的数据和精心的模型设计才能提高泛化能力。

除了工业和医疗,我觉得触觉感知在人机交互方面也有很大的应用前景。比如智能假肢,可以通过触觉传感器将感觉传递给使用者,提高使用的舒适性和控制精度。还有服务机器人,可以通过触觉感知来判断用户的意图,提供更贴心的服务。

垃圾分拣只是一个很小的应用场景,我觉得触觉感知更大的潜力在于精细操作。比如医疗机器人做微创手术,需要非常精确的力和位置控制;再比如制造业的装配机器人,需要识别零件的材质和形状,并进行精确的组装。这些都需要强大的触觉感知能力。

这个问题很有意思!仿生学在机器人领域应用广泛,比如模仿壁虎的脚设计吸附机器人,在复杂地形中行动自如;模仿鱼类的流线型结构设计水下机器人,提高运动效率。优势在于可以借鉴自然界已经验证过的有效机制,快速实现特定功能。但局限性也很明显,完全照搬可能不适应机器人的应用环境,需要进行优化和改进。

我之前了解过一些仿生机器人的项目,比如MIT的猎豹机器人,就是模仿猎豹的运动方式,速度非常快。我觉得仿生设计的关键在于抓住生物特征的核心功能,然后用工程化的方法实现。SuperTac模仿鸽子的多光谱视觉和非成像感知,我觉得是很聪明的做法。局限性的话,可能在于生物结构的复杂性难以完全复制,需要做很多简化。

emmm,有没有考虑到伦理问题?如果机器人仿生到一定程度,有了自我意识,会怎么样?(纯属瞎想)