ICML2025:图像标记连续性对ViT跨领域少样本学习的影响研究

ICML2025论文:研究表明,破坏ViT图像标记连续性,能有效提升跨领域少样本学习性能。新方法鼓励模型关注可迁移的小模式,缩小领域差距。

原文标题:【ICML2025】重新审视图像标记在跨领域少样本学习中的连续性

原文作者:数据派THU

冷月清谈:

本文研究了视觉变换器(ViT)在跨领域少样本学习(CDFSL)任务中,图像标记连续性对模型性能的影响。研究发现,破坏图像标记的连续性会导致ViT在通用(源)领域的性能下降,但在目标领域的性能影响较小。研究解释说,连续性有助于ViT学习较大的空间模式,而这些模式比小的模式更难以迁移,从而增加了领域间的领域差距。基于此,文章提出了一种新的CDFSL方法,通过破坏图像标记的连续性,鼓励模型减少对大模式的依赖,更多地依赖于小模式,从而提升跨领域少样本学习的性能。实验结果表明,该方法能够有效缩小领域差距并超越现有方法。

怜星夜思:

1、ViT中图像标记的连续性到底是什么?为什么会影响模型的泛化能力?
2、文章提出的方法只是简单地破坏图像标记的连续性吗?有没有其他更精细的方法来减少对大模式的依赖?
3、这个研究对实际应用有什么启发?在哪些场景下,这种“破坏连续性”的策略可能更有用?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
大量实验表明,我们的方法在缩小领域差距和超越现有最先进方法方面是有效的。


视觉变换器(ViT)由于在通用领域的大规模预训练,已经取得了显著的成功,但在应用于仅有稀缺训练数据的下游远程领域时,仍然面临挑战,这就产生了跨领域少样本学习(CDFSL)任务。受到自注意力对标记顺序不敏感的启发,我们发现了当前研究中被忽视的一个有趣现象:在ViT中破坏图像标记的连续性(即,使像素在各个块之间不平滑过渡)会导致在通用(源)领域的性能显著下降,但在下游目标领域的性能仅有轻微下降。这质疑了图像标记连续性在ViT在大领域差异下的泛化能力中的作用。本文深入探讨这一现象,并给出了解释。我们发现,连续性有助于ViT学习较大的空间模式,而这些模式比小的模式更难以迁移,从而增加了领域间的距离。同时,这也意味着在极端领域差异下,仅有每个块内的小模式可以被迁移。基于这一解释,我们进一步提出了一种简单而有效的CDFSL方法,能够更好地破坏图像标记的连续性,鼓励模型减少对大模式的依赖,更多地依赖于小模式。大量实验表明,我们的方法在缩小领域差距和超越现有最先进方法方面是有效的。代码和模型可通过以下链接获取:https://github.com/shuaiyi308/ReCIT



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这个研究让我想到了一个词:less is more。有时候,看似强大的预训练模型,可能学到了一些不必要的、冗余的特征。这些特征在源域有用,但在目标域反而成了阻碍。所以,适当的“破坏”,是为了让模型更加focused,更加高效。 类似于禅宗里的“空”,放下执念,才能更好地适应变化。

这个研究的启发在于,不能盲目相信在大规模数据集上预训练的模型。在特定领域,特别是领域差异较大的情况下,可能需要对预训练模型进行微调,甚至需要重新设计模型结构。破坏连续性的策略,适用于那些源域和目标域差异较大,且目标域数据量较少的场景。比如,医学图像分析,卫星遥感图像分析等。

除了正则化和稀疏注意力,还可以考虑从数据增强的角度入手。例如,可以对源域图像进行随机裁剪、旋转等操作,增加小模式的多样性。或者,可以使用对抗训练,让模型学习对大模式不敏感的特征。总之,思路有很多,关键在于找到性价比最高的方法。

文章方法的精髓在于“简单有效”。当然,肯定还有其他更复杂的方法。比如,可以在损失函数中加入正则化项,惩罚模型对大感受野特征的依赖。或者,可以尝试使用注意力机制的变体,例如Sparse Attention,强制模型关注特定的局部区域。

不过,更复杂的方法往往意味着更高的计算成本和更多的超参数需要调整。文章的方法胜在容易实现和调试,在实际应用中可能更受欢迎。

这个问题问得好!图像标记的连续性可以理解为图像块之间的像素过渡是否平滑。如果连续性被破坏,相邻图像块的像素值可能会有突变。文章提到,连续性让ViT学习大的空间模式,但这些模式在不同领域之间可能差异很大,所以影响了泛化能力。就像是,你学了一套只适用于特定场景的“高级技巧”,换个环境就不好使了。

我觉得这个连续性有点像图像处理里的低通滤波。保留连续性相当于做了低通滤波,让模型关注整体轮廓。但不同领域的轮廓可能差异巨大,导致模型迁移失败。反之,破坏连续性就有点像高通滤波,突出细节特征。虽然每个领域的细节各不相同,但某些底层纹理特征可能是共通的,所以反而能提升泛化能力。当然,这只是个不太严谨的比喻哈。