清华提出RGB-T对抗服装：一件衣服同时干扰可见光与热成像检测

DatapiTHU · 2026 年6 月 16 日 16:41

清华提出可穿戴RGB-T对抗服装，揭示多模态检测系统的物理安全隐患。

原文标题：一件衣服「隐身」可见光-热成像检测器，清华多模态对抗新方法

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247666520&idx=1&sn=4c0767e1f5bb5eb0eea2f7383c03beda&

冷月清谈：

清华大学团队提出一种面向可见光-热成像（RGB-T）目标检测器的物理对抗方法，通过特殊服装让行人在现实环境中同时干扰普通相机和热成像相机的检测。其核心是非重叠RGB-T对抗图案NORP：衣服上不同区域分别承担可见光图案和热成像材料的作用，避免两类扰动互相削弱。团队还构建了三维人体与服装模型，用于模拟0到360度视角下的RGB与热成像效果，并提出空间离散-连续优化方法，使图案既能优化又能实际制作。实验显示，该方法在数字环境中平均对抗成功率超过90%，在真实物理世界中平均成功率约60%，并对多种融合架构和部分未参与训练的检测器具备迁移效果。研究重点不在“隐身衣”应用，而在揭示多模态感知系统的现实安全风险，推动更鲁棒的检测模型设计。

怜星夜思：

1、如果RGB-T检测器也会被“衣服”绕过，自动驾驶和安防系统该怎么补安全短板？
2、这类对抗服装论文公开代码和制作方法，会不会反而增加现实风险？
3、多模态AI是不是被高估了？加了热成像、雷达等传感器，就一定更安全吗？
4、如果要防御这种物理对抗样本，模型训练阶段应该加入哪些数据或机制？

原文内容

来源：新智元
本文约2500字，建议阅读5分钟
          
           清华大学提出一种新型物理对抗方法，利用特殊服装同时干扰可见光和热成像检测。这种服装通过非重叠设计和三维建模优化，可有效躲避RGB-T检测器，促进系统安全性研究。

近年来，可见光-热成像（RGB-T）联合目标检测系统受到了越来越多关注。

与单一可见光检测相比，RGB-T检测器能够同时利用普通相机和热成像相机的信息，在夜间、弱光、恶劣天气等复杂环境下具有更好的鲁棒性，因此在自动驾驶、智能安防、机器人感知等场景中具有重要应用价值。

由于多模态系统同时融合了可见光和热成像信息，人们通常认为它比单模态系统更加可靠：即使一个模态受到干扰，另一个模态仍然可以提供补充信息。

然而，这类系统在现实物理世界中的安全性是否真的足够可靠，仍然缺乏系统研究。

最近，来自清华大学的研究团队在CVPR 2026论文中提出了一种面向可见光-热成像目标检测器的物理对抗方法。该方法通过设计一套特殊的对抗服装，使行人在现实世界中能够同时躲避可见光和热成像检测器。

论文链接：https://arxiv.org/abs/2605.04675

代码链接：https://github.com/zxp555/RGBT-Clothing

实验表明，该方法可以对抗不同融合架构的RGB-T检测器，在数字世界中的平均对抗成功率达到90%，在真实物理世界中的平均成功率达到60%。

研究背景

对抗样本研究表明，深度神经网络在面对经过精心设计的扰动时，可能产生错误判断。过去，大量物理对抗工作主要集中在单一模态上：例如，在可见光场景中，可以将对抗图案打印在纸张、贴纸或衣服上；在热成像场景中，则可以利用发热器件、隔热材料等方式改变热图像。

但是，可见光和热成像机制存在显著差异。可见光图像依赖光照、颜色和纹理，而热成像图像反映的是物体表面的热辐射特性。

因此，只针对可见光设计的对抗图案，往往无法在热成像图像中产生有效对抗；只针对热成像设计的材料，也难以同时欺骗可见光检测器。

目前，有一些工作尝试对抗RGB-T检测器，但仍存在局限。例如，一些方法采用二维对抗贴片，但对抗角度范围较窄；另一些方法需要将特殊低辐射薄膜叠加在打印图案上，但削弱可见光图案效果，且增加了制作成本。也就是说， RGB-T 检测器在不同角度、距离和融合架构下的真实安全风险仍未被充分揭示。

研究方法

为了解决这些问题，作者提出了一种非重叠RGB-T对抗图案设计，称为NORP（non-overlapping RGB-T pattern）。其核心思想是：物理对抗服装上的每一个位置要么用于显示可见光图案以干扰可见光检测，要么用于显示热成像图案以干扰热成像模态，两者在空间中不重叠。

具体来说，作者使用普通可打印布料来承载可见光对抗图案，同时使用常见的铝膜材料来改变局部热热成像效果。这样既可以同时作用于RGB和Thermal两个模态，又避免了传统重叠式打印带来的亮度下降问题。

为了在现实世界中适用于不同观察角度，作者进一步构建了人体和服装的三维RGB-T模型。通过三维建模，系统可以在数字世界中模拟0到360度全视角下的人体穿衣效果，并同时渲染可见光图像和热成像图像。优化完成后，作者再根据生成的图案制作真实衣服，包括上衣和裤子，从而实现物理世界中的全视角RGB-T对抗。

但是，在对抗图案的优化方法上，NORP带来了一个新的难题：同一个位置不能既是可连续优化的RGB颜色，又是离散选择的热成像材料。为此，作者提出了空间离散-连续优化方法，在优化过程中随机选择部分区域进行离散化，同时更新另一部分连续变量，从而在满足物理可制造约束的同时，联合优化可见光和热成像对抗图案。

为了提升对未知检测器的迁移对抗能力，作者还提出了融合阶段集成方法，将早期融合、中期融合、晚期融合以及独立双模态检测器共同纳入优化，使一套衣服能够有效干扰不同融合架构的RGB-T检测系统。

实验结果

作者首先在数字世界中进行了系统评估。实验覆盖了多种RGB-T检测架构，包括早期融合检测器Prob-E、中期融合检测器Prob-M、晚期融合检测器Prob-L，以及独立的YOLO11可见光和热成像检测器。评测使用FLIR测试集的500张图像，在随机人物角度，距离，背景和光照条件下进行。

结果显示，得益于3D建模以及连续离散混合优化的对抗方法，本文实验在数字世界中对不同RGB-T检测器均取得了非常高的对抗成功率（ASR），达到90%以上。相比之下，普通纯色衣服、随机RGB-T图案以及已有对抗方法，对多模态目标检测器的对抗成功率较为有限。

作者还进一步分析了不同距离和角度下的对抗效果。实验覆盖0到360度视角，以及2.5米到 20 米的距离范围。结果表明，本文方法能够在全视角和多个距离条件下稳定对抗RGB-T检测器，相比以往主要适用于有限角度范围的二维贴片方法具有明显优势。

接下来，作者使用布料和铝膜制作了真实RGB-T对抗服装，并开展物理世界实验。实验使用iPhone 13 Pro和FLIR T560热成像相机同步采集可见光和热成像图像，并在室内和室外、早晨、中午、下午和傍晚等不同场景中采集数据。物理实验结果显示，本文方法在不同融合架构的RGB-T检测器上均能有效逃避检测，平均对抗成功率达到60%，显著优于普通衣服、随机图案衣服和已有方法。

作者还验证了方法在黑盒设置下的迁移能力。通过融合阶段集成优化，一套对抗服装可以迁移对抗未参与训练的RGB-T检测器，例如RPN-E、AR-CNN、RPN-L和Deformable DETR等。作者在这些模型上也观察到了一定的迁移对抗效果。这表明当前RGB-T检测系统在面对现实物理对抗时仍然存在普遍安全隐患。

结论与展望

研究人员提出了一种面向可见光-热成像目标检测器的物理对抗方法。

通过构建三维RGB-T人体和服装模型，设计非重叠RGB-T对抗图案，并提出空间离散-连续优化方法，实现了可制造、可穿戴、全视角的多模态对抗服装。

该研究表明，即使是融合了可见光和热成像信息的多模态检测系统，也可能在现实世界中受到物理对抗样本的威胁。

相关研究发现有助于更加全面地理解RGB-T检测器的安全风险，并推动未来实现更加鲁棒、更加可靠的多模态感知系统。

作者介绍

论文作者依次为，朱小佩，清华大学水木学者，合作导师为朱军教授；曾冠宁（共同一作），清华大学计算机系本科生；胡展豪，加州大学伯克利分校博士后；以及本文通讯作者，清华大学朱军教授和胡晓林副教授。

参考资料：https://arxiv.org/abs/2605.04675

编辑：文婧

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Drift815m · 2026 年6 月 18 日 13:53

我倾向于支持公开。漏洞藏着不说，不等于漏洞不存在。尤其是自动驾驶、安防这种高风险系统，靠“没人知道怎么攻击”来保证安全，本来就不靠谱。

FieryPhoenix505 · 2026 年6 月 19 日 18:06

这个问题可以从两个方向做：一是训练时加入对抗服装数据，二是推理时加入不确定性估计。模型如果没把握，就别自信地输出“没人”，而是提醒后端系统复核。

Echo319s · 2026 年6 月 20 日 09:58

关于“公开会不会增加风险”，这个问题挺典型的双刃剑。安全研究如果不公开，厂商可能永远低估风险；公开之后确实可能被滥用。比较合理的做法是公开原理和评测框架，但对可直接复现高成功率攻击的细节做一定限制。

PolishedStone452 · 2026 年6 月 22 日 06:33

不一定更安全，但通常更有机会发现问题。单模态像一个人只听声音判断，双模态像又听又看。问题是，如果攻击者同时伪装声音和外表，那你还是可能被骗。