NeurIPS 2024：文本引导注意力提升视觉语言模型零样本鲁棒性

DatapiTHU · 2025 年2 月 13 日 16:24

NeurIPS 2024论文提出TGA-ZSR方法，利用文本引导注意力提升视觉语言模型零样本鲁棒性，显著增强对抗攻击防御能力。

原文标题：NeurIPS 2024 | 文本引导注意力在视觉-语言模型零样本鲁棒性中的关键作用

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652394&idx=1&sn=524591a8451bb3173e73f07f489d45b8&

冷月清谈：

这篇 NeurIPS 2024 的论文提出了一种名为 TGA-ZSR 的方法，利用文本引导注意力来增强视觉语言模型的零样本鲁棒性。研究发现，对抗攻击会导致模型的文本引导注意力偏移，即注意力从目标物体转移到背景或其他物体上。TGA-ZSR 方法通过引入注意力精炼模块和基于注意力的模型约束模块，修正对抗示例的注意力偏差，并避免干净图像性能下降。实验结果表明，TGA-ZSR 在多个数据集和不同攻击类型下，显著提升了模型的零样本对抗鲁棒性和干净准确性，超越了现有方法。该方法不仅有效，而且提高了对对抗攻击影响的理解，为视觉语言模型的鲁棒性研究提供了新的思路。

怜星夜思：

1、论文中提到的文本引导注意力偏移现象，除了对抗攻击，还有哪些因素可能导致这种偏移？
2、TGA-ZSR 方法主要针对 CLIP 模型，这种方法能否推广到其他视觉语言模型，例如 ALBEF 或 BLIP？
3、除了文中提到的方法，大家觉得还有哪些策略可以提高视觉语言模型的零样本鲁棒性？

原文内容

本文约3000字，建议阅读10+分钟
本文作者发现对抗攻击会导致文本引导注意力的偏移。

论文题目：

Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models

论文作者：

余璐（天津理工大学），章海洋（天津理工大学），徐常胜（中科院自动化所）

收录会议：

NeurIPS 2024

论文链接：

https://arxiv.org/abs/2410.21802

代码链接：

https://github.com/zhyblue424/TGA-ZSR

一、前言概要

大规模预训练的视觉-语言模型（Pre-trained Vision-Language Models, VLMs）已经在人工智能领域展现了卓越的成功，这些模型通过融合视觉和文本数据，能够理解复杂的多模态信息。以 CLIP 模型为例，它证明了利用大型数据集进行预训练可以在多种跨模态任务中取得优越的性能。

然而，研究表明 CLIP 对于对抗攻击生成的对抗示例较为脆弱，可能导致错误分类或改变模型输出，这对下游任务的应用造成严重影响。随着视觉-语言模型在现实中的广泛应用，理解和缓解这种威胁对于保持人工智能系统的可靠性是至关重要的。

传统的提升模型对抗鲁棒性的方法通常依赖于对抗示例的生成，并通过这些样本对模型进行再训练以提高其对抗鲁棒性。这种方法面临两个主要挑战：一是需要访问原始数据以生成对抗示例；二是对抗示例的生成过程往往需要大量的计算资源。

因此，探索零样本对抗鲁棒性是一个潜在的研究方向，旨在提升模型鲁棒性的同时，无需直接访问原始数据或消耗大量资源生成对抗示例。而先前的研究未能利用视觉-语言模型中丰富的文本信息，从而限制了模型性能的进一步提升，并且在解释对抗攻击对模型鲁棒性的影响方面存在不足。

针对上述问题，作者首先通过比较对抗示例与干净示例的文本引导注意力图（text-guided attention maps），揭示了一个关键现象：尽管人眼难以区分两种示例，但它们的文本引导注意力图却显示出显著差异。

基于这一现象，作者提出了基于文本引导注意力的方法——Text-Guided Attention for Zero-Shot Robustness（TGA-ZSR），利用文本信息增强模型的对抗鲁棒性。

论文贡献总结如下：

首次引入文本引导注意力机制：创新性地引入文本引导注意力机制，以增强视觉-语言模型的零样本对抗鲁棒性，同时保持在干净示例上的高性能表现。
提升可解释性：通过文本引导的注意力机制，显著提高了对抗攻击在视觉-语言模型上零样本鲁棒性的可解释性，揭示了对抗示例与干净示例之间细微但关键的区别。
实验验证与新基准：实验结果显示，TGA-ZSR 超越了先前的方法，在模型的零样本对抗鲁棒性上建立了新的性能基准。

二、研究内容

作者首先通过获取对抗示例与干净示例的文本引导注意力图（text-guided attention maps），揭示了一个关键现象：尽管从视觉上看，两种示例难以区分，但它们的文本引导注意力图却显示出显著的差异。

具体观察发现，对抗示例的文本引导注意力发生了明显变化，表现为注意力向其他物体或背景偏移，甚至在某些情况下出现了注意力消失的现象。

▲ 图 1: 对抗示例与干净示例及其对应的注意力图

基于这一现象，作者提出了基于文本引导注意力的方法 —— Text-Guided Attention for Zero-Shot Robustness（TGA-ZSR），旨在充分利用文本引导的注意力图来提升模型的对抗鲁棒性，同时保持在干净示例上的高性能。TGA-ZSR 的总体框架图如下所示：

▲ 图 2: TGA-ZSR 总体框架

具体而言，主要的组件包含：

1. 注意力精炼模块 (Attention Refinement Module)，

该模块专门设计用于校正对抗示例的文本引导注意力，这种注意力的偏差常常导致预测结果的改变。通过将对抗示例的注意力图与干净示例的注意力图对齐，该模块确保对抗示例能够获得与干净示例同样准确的注意力分布。这一简单而有效的策略有效地减轻了对抗扰动对于模型性能的影响。

具体步骤如下：首先，将对抗示例输入目标模型，并将干净示例输入原始模型，从而分别获得对抗示例的注意力图和干净示例的注意力图。最后，注意力精炼损失定义为：

2. 基于注意力的模型约束模块（Attention-based Model Constraint Module），

虽然注意力精炼模块提升了模型的对抗鲁棒性，但可能会因为参数的变化而导致干净示例的准确性发生下降。为了保持视觉-语言模型的泛化能力，作者引入了基于注意力的模型约束模块。该模块的目标是避免干净图像性能下降，以确保模型的整体有效性和可靠性。

具体来说，将干净示例同时输入目标模型和原始模型，分别获得两种文本引导的注意力图和。为了避免与干净示例相关的重要参数发生变化，作者在两个注意力图之间施加了约束，该损失定义为：

因此，最终的损失函数综合了交叉熵损失、注意力精炼损失和基于注意力的模型约束损失：

其中，和是超参数，用于平衡不同损失项的重要性。

三、实验结果

3.1 实验细节

该研究在 Tiny-ImageNet 上微调预训练的 CLIP 模型，随后在 15 个数据集上验证模型的零样本对抗鲁棒性。这些数据集分为几类：

广泛使用的分类数据集：CIFAR-10、CIFAR-100、STL-10、ImageNet、Caltech-101、Caltech-256
细粒度分类数据集：StanfordCars、Flowers102、Food101、FGVCAircraft、OxfordPets
场景识别数据集：SUN397
医疗图像数据集：PCAM
卫星图像数据集：EuroSAT
纹理识别数据集：DTD

3.2 主要实验结果（Main Results）

图片1080×764 399 KB

零样本对抗鲁棒准确性：表 1 显示，TGA-ZSR 的平均准确性比原始 CLIP 模型提高了 37.19%。与当前最佳的方法 PMG-AFT 相比，TGA-ZSR 提升了 9.58%。

总体而言，该方法在多个数据集上优于其他所有方法。此外，TGA-ZSR 在 Tiny-ImageNet 上获得了最佳的结果，尽管这不是一个严格的零样本测试，但是这一结果表明了 TGA-ZSR 对于已见和未见数据集都表现出强大的鲁棒性。

零样本干净准确性：表 2 展示了不同方法对于干净示例的准确性。TGA-ZSR 比 PMG-AFT 提升了 9.84%，并且在多个数据集上均有所提升。虽然，TGA-ZSR 的零样本干净示例准确性比 FARE 低 3.41%，这是因为 FARE 更加专注于零样本干净示例的准确性。然而，综合考虑两方面的性能，TGA-ZSR 远超 FARE，展现了更全面的优势。

3.3 更多攻击类型的实验（Experiments on More Attack Types）— AutoAttack 实验结果

表 3 显示，在 AutoAttack 上，所有方法的性能都有所下降。尽管 TGA-ZSR 也表现出一定的性能下降，但仍明显优于其他方法，实现了 30.86% 的零样本对抗鲁棒准确性，证明了它在面对更强有力的攻击时的有效性。

CW 实验结果：表 4 表明， TGA-ZSR 在对抗示例上的表现显著优于当前最佳的方法 PMG-AFT，实现了 40.50% 的最佳零样本对抗鲁棒准确性。

综上所述，无论是面对 AutoAttack 还是 CW 攻击，TGA-ZSR 均表现出显著的鲁棒性和有效性，确保了在复杂攻击环境下的稳定性能。

3.4 不同类型注意力的实验（Different Types of Attentions）

为了验证文本引导注意力的重要性，作者将其替换为根据 Grad-CAM 生成的基于视觉的注意力进行实验。表 5 显示，即使替换后，模型的零样本鲁棒准确性和干净准确性仍然可以与当前最佳的方法 PMG-AFT 相媲美，这一发现验证了该方法框架的有效性。

此外，实验结果也表明，文本引导注意力显著提升了模型的性能，证明了文本引导的优势，凸显了文本信息在多模态任务中的重要作用。

3.5 鲁棒性与干净准确性的权衡（Trade-off between Robust and Clean Accuracy）

▲ 图3: 鲁棒精度与干净精度的权衡

在对抗训练过程中，实现鲁棒准确性和干净准确性之间的平衡至关重要。TGA-ZSR 不仅增强了模型的对抗鲁棒性，还保持了良好的干净准确性，从而实现了整体性能的显著提升。

四、研究总结

在本文中，作者发现对抗攻击会导致文本引导注意力的偏移。基于这一现象，该研究引入了一种文本引导注意力的方法 —— TGA-ZSR（Text-Guided Attention for Zero-Shot Robustness），该方法结合了两个关键模块来进行对抗微调和约束模型。

这一策略不仅防止模型漂移，还显著增强模型的对抗鲁棒性。大量的实验验证了 TGA-ZSR 的有效性，表明其在多种攻击类型下均表现出色，在鲁棒性和泛化性之间实现了优越的平衡。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Mystic98x · 2025 年2 月 28 日 17:37

从学术角度来说，训练数据偏差也可能是一个重要因素。如果训练数据中某些物体的文本描述不够准确或存在歧义，就可能导致模型学习到错误的注意力模式，即使没有对抗攻击，也会出现注意力偏移。可以参考一些关于数据集偏差和注意力机制鲁棒性的研究。

GlowingStarfish420 · 2025 年3 月 1 日 23:06

可以试试看啊，说不定有奇效！搞不好还能发一篇新的论文呢，哈哈。

Nova837x · 2025 年3 月 2 日 18:19

从模型结构的角度，可以考虑设计更鲁棒的注意力机制，例如引入一些正则化项或注意力过滤机制，减少噪声和干扰对注意力的影响。也可以探索一些新的多模态融合方式，提高模型对多模态信息的一致性理解。

Mystic98x · 2025 年3 月 3 日 01:17

理论上来说，TGA-ZSR 的核心思想是利用文本引导注意力来提高鲁棒性，这应该可以应用于其他基于 Transformer 结构的视觉语言模型。不过不同模型的具体实现方式可能会有差异，需要根据模型结构进行调整。

DancingFrog182 · 2025 年3 月 3 日 21:32

还可以借鉴其他领域的鲁棒性方法，比如对抗训练、集成学习等。对抗训练可以通过生成对抗样本来提高模型的鲁棒性，集成学习可以结合多个模型的预测结果来提高整体的鲁棒性。

Wisp43b · 2025 年3 月 3 日 23:16

模型本身的结构和参数设置也可能影响注意力，比如注意力层的深度、宽度等。不同结构的模型对相同图像的注意力分布可能会有差异，这需要更深入的实验研究来验证。

GreenTurtle317 · 2025 年3 月 4 日 01:40

我觉得除了对抗攻击，一些图像本身的特性，比如复杂的背景、目标物体的遮挡等等，都可能导致文本引导注意力的偏移。毕竟注意力机制本身就容易被一些干扰因素影响。

Pulse48v · 2025 年3 月 5 日 08:01

我想到一个，可以尝试结合一些图像预处理技术，比如去噪、增强对比度等，来减少对抗扰动对模型的影响。感觉这样可以提高输入图像的质量，从而间接提高模型的鲁棒性。

SilentWhale233 · 2025 年3 月 6 日 03:16

推广到其他模型的关键在于如何有效地提取和利用文本引导的注意力。ALBEF 和 BLIP 等模型可能使用不同的注意力机制，需要针对性地设计相应的精炼模块和约束模块。