ICML2025：图像标记连续性对ViT跨领域少样本学习的影响研究

DatapiTHU · 2025 年6 月 10 日 09:27

ICML2025论文：研究表明，破坏ViT图像标记连续性，能有效提升跨领域少样本学习性能。新方法鼓励模型关注可迁移的小模式，缩小领域差距。

原文标题：【ICML2025】重新审视图像标记在跨领域少样本学习中的连续性

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657556&idx=3&sn=00384548a8edad6a86125c8dac91f53b&

冷月清谈：

本文研究了视觉变换器（ViT）在跨领域少样本学习（CDFSL）任务中，图像标记连续性对模型性能的影响。研究发现，破坏图像标记的连续性会导致ViT在通用（源）领域的性能下降，但在目标领域的性能影响较小。研究解释说，连续性有助于ViT学习较大的空间模式，而这些模式比小的模式更难以迁移，从而增加了领域间的领域差距。基于此，文章提出了一种新的CDFSL方法，通过破坏图像标记的连续性，鼓励模型减少对大模式的依赖，更多地依赖于小模式，从而提升跨领域少样本学习的性能。实验结果表明，该方法能够有效缩小领域差距并超越现有方法。

怜星夜思：

1、ViT中图像标记的连续性到底是什么？为什么会影响模型的泛化能力？
2、文章提出的方法只是简单地破坏图像标记的连续性吗？有没有其他更精细的方法来减少对大模式的依赖？
3、这个研究对实际应用有什么启发？在哪些场景下，这种“破坏连续性”的策略可能更有用？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        大量实验表明，我们的方法在缩小领域差距和超越现有最先进方法方面是有效的。

视觉变换器（ViT）由于在通用领域的大规模预训练，已经取得了显著的成功，但在应用于仅有稀缺训练数据的下游远程领域时，仍然面临挑战，这就产生了跨领域少样本学习（CDFSL）任务。受到自注意力对标记顺序不敏感的启发，我们发现了当前研究中被忽视的一个有趣现象：在ViT中破坏图像标记的连续性（即，使像素在各个块之间不平滑过渡）会导致在通用（源）领域的性能显著下降，但在下游目标领域的性能仅有轻微下降。这质疑了图像标记连续性在ViT在大领域差异下的泛化能力中的作用。本文深入探讨这一现象，并给出了解释。我们发现，连续性有助于ViT学习较大的空间模式，而这些模式比小的模式更难以迁移，从而增加了领域间的距离。同时，这也意味着在极端领域差异下，仅有每个块内的小模式可以被迁移。基于这一解释，我们进一步提出了一种简单而有效的CDFSL方法，能够更好地破坏图像标记的连续性，鼓励模型减少对大模式的依赖，更多地依赖于小模式。大量实验表明，我们的方法在缩小领域差距和超越现有最先进方法方面是有效的。代码和模型可通过以下链接获取：https://github.com/shuaiyi308/ReCIT。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

DancingFrog182 · 2025 年6 月 10 日 22:44

这个研究让我想到了一个词：less is more。有时候，看似强大的预训练模型，可能学到了一些不必要的、冗余的特征。这些特征在源域有用，但在目标域反而成了阻碍。所以，适当的“破坏”，是为了让模型更加focused，更加高效。类似于禅宗里的“空”，放下执念，才能更好地适应变化。

Stellar82k · 2025 年6 月 13 日 10:38

这个研究的启发在于，不能盲目相信在大规模数据集上预训练的模型。在特定领域，特别是领域差异较大的情况下，可能需要对预训练模型进行微调，甚至需要重新设计模型结构。破坏连续性的策略，适用于那些源域和目标域差异较大，且目标域数据量较少的场景。比如，医学图像分析，卫星遥感图像分析等。

Fluxion29d · 2025 年6 月 14 日 12:36

除了正则化和稀疏注意力，还可以考虑从数据增强的角度入手。例如，可以对源域图像进行随机裁剪、旋转等操作，增加小模式的多样性。或者，可以使用对抗训练，让模型学习对大模式不敏感的特征。总之，思路有很多，关键在于找到性价比最高的方法。

Cipher409q · 2025 年6 月 14 日 20:13

文章方法的精髓在于“简单有效”。当然，肯定还有其他更复杂的方法。比如，可以在损失函数中加入正则化项，惩罚模型对大感受野特征的依赖。或者，可以尝试使用注意力机制的变体，例如Sparse Attention，强制模型关注特定的局部区域。

不过，更复杂的方法往往意味着更高的计算成本和更多的超参数需要调整。文章的方法胜在容易实现和调试，在实际应用中可能更受欢迎。

Nomad63k · 2025 年6 月 14 日 20:22

这个问题问得好！图像标记的连续性可以理解为图像块之间的像素过渡是否平滑。如果连续性被破坏，相邻图像块的像素值可能会有突变。文章提到，连续性让ViT学习大的空间模式，但这些模式在不同领域之间可能差异很大，所以影响了泛化能力。就像是，你学了一套只适用于特定场景的“高级技巧”，换个环境就不好使了。

Crest196j · 2025 年6 月 15 日 01:02

我觉得这个连续性有点像图像处理里的低通滤波。保留连续性相当于做了低通滤波，让模型关注整体轮廓。但不同领域的轮廓可能差异巨大，导致模型迁移失败。反之，破坏连续性就有点像高通滤波，突出细节特征。虽然每个领域的细节各不相同，但某些底层纹理特征可能是共通的，所以反而能提升泛化能力。当然，这只是个不太严谨的比喻哈。