缓解捷径学习：提升视觉及视觉-语言模型的分布外泛化能力

DatapiTHU · 2026 年4 月 3 日 18:28

研究表明，缓解捷径学习是提升视觉和视觉-语言模型分布外泛化能力的关键。通过数据干预和模型设计，模型能学习更稳健的特征。

原文标题：【NTU博士论文】缓解捷径学习并提升视觉及视觉-语言模型的分布外泛化能力

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665526&idx=2&sn=433148c38a39bc64e1141884b825f218&

冷月清谈：

本文总结了一篇博士论文的核心观点，该论文深入探讨了捷径学习对视觉及视觉-语言模型在分布外泛化能力的影响。论文指出，模型容易依赖训练数据中存在的虚假相关性进行预测，导致在面对与训练数据分布不同的数据时性能大幅下降。为了解决这一问题，论文提出了数据层面和模型层面的互补策略：在数据层面，通过数据增强和合成数据生成等技术打破虚假相关性；在模型层面，通过架构设计促使模型学习更具泛化性的特征。论文通过在视频识别、视频生成以及视觉-语言理解等任务中的实验，验证了缓解捷径学习对于提升模型OOD泛化能力的重要性，并详细介绍了StillMix、FLASH和SPARCL等具体方法。

怜星夜思：

1、文中提到了“捷径学习”会导致模型学习到虚假相关性，那么在实际应用中，你认为有哪些常见的“捷径”是模型容易学到的？如何避免模型过度依赖这些“捷径”？
2、文中提到了多种缓解捷径学习的方法，比如StillMix、FLASH和SPARCL。你认为这些方法的核心思想是什么？它们各自适用于哪些场景？
3、本文主要关注的是视觉和视觉-语言模型，那么你认为捷径学习在其他领域（比如推荐系统、金融风控等）中是否也存在？如果有，会以什么形式表现出来？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        缓解捷径学习对于提升 OOD 泛化至关重要。

视觉模型与视觉-语言模型在训练数据与测试数据遵循相同分布的独立同分布（IID）基准测试中已取得显著成果。然而，当面对分布外（OOD）数据（即分布与训练数据存在差异的数据）时，其性能通常会出现大幅退化。导致泛化能力缺失的关键原因在于捷径学习（Shortcut Learning）——即模型倾向于依赖虚假相关性或表面特征进行预测。这些特征在训练集中具有预测性，但并未反映结果背后的底层因果逻辑。捷径学习主要源于两个因素：(1) 训练数据频繁包含在其他分布中并不成立的虚假相关性；(2) 梯度优化算法倾向于损失景观中的平坦极小值（Flat Minima），而这些相关性往往对应于此类易于学习的极小值。因此，模型通常会优先学习非因果模式，而非稳健且可泛化的特征。

因此，缓解捷径学习对于提升 OOD 泛化至关重要。这一挑战可以从两个互补的视角予以解决。在数据层面，通过数据增强和合成数据生成等干预技术，可以打破虚假相关性并凸显不变特征（Invariant Features）。在模型层面，通过架构设计扩大与因果特征相关的极小值范围，同时抑制与捷径特征关联的极小值，能够促使模型学习到更具泛化性的特征。上述方法协同作用，共同促进了稳健表示的构建并提升了 OOD 泛化表现。本论文将捷径学习视为视觉及视觉-语言模型在分布外泛化中所面临的基础性挑战，并在视频识别、视频生成以及视觉-语言理解等一系列任务中对其进行了深入研究。这些任务涵盖了从单模态判别到像素级生成，再到跨模态推理的演进过程，从而能够在表征与建模需求不断增加的情况下，对捷径缓解策略进行系统的评估。

在视频动作识别任务中，我们引入了旨在缓解静态视觉线索所导致的捷径学习的数据增强技术。我们提出了 StillMix，该方法在保持视频动作标签不变的前提下，将诱导偏差的静态帧混入训练视频中。这种增强手段破坏了静态特征与动作标签之间的虚假相关性，从而增强了模型对 OOD 视觉表现的泛化能力。

在小样本人体动作生成任务中，我们提出了一种结合数据增强与模型设计的策略，以缓解由外观线索驱动的捷径学习。我们引入了 FLASH，通过构建具有相同动作但外观不同的视频对，并在两组视频间进行特征对齐，以促进可迁移运动表示的学习。该方法降低了低数据量场景下的外观过拟合，增强了运动泛化性。

在视觉-语言组合理解任务中，我们开发了合成数据生成技术，以减少模型对粗粒度视觉-文本对齐的依赖。我们提出了 SPARCL，通过生成具有细微变化的模态数据并训练模型识别这些差异，提升了模型捕捉超越表层相关性的组合语义的能力。

综上所述，这些研究贡献表明，通过数据干预与模型设计来缓解捷径学习，是提升视觉及视觉-语言任务 OOD 泛化能力的关键。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SoaringEagle839 · 2026 年4 月 7 日 23:42

确实，捷径学习是个普遍存在的问题。我补充一个例子，在自然语言处理中，情感分析模型可能会学到某些词汇（比如“好”、“棒”）总是对应正面情感。但实际上，这些词汇在不同的语境下情感倾向可能会发生变化。为了避免这种情况，一种方法是使用更复杂的模型，比如Transformer，让模型能够更好地理解上下文；另一种方法是在训练数据中引入更多负面例子，让模型学习到情感的细微差别。

Glyph270t · 2026 年4 月 8 日 05:48

从理论角度来看，捷径学习其实是模型泛化能力不足的一种表现。我们可以从因果推断的角度来理解这个问题。模型应该学习到事物之间的因果关系，而不是虚假相关性。因此，可以使用因果发现算法来识别潜在的捷径，并在训练过程中进行纠正。这方面的研究还比较新，但我觉得是一个很有潜力的方向。

SwiftGazelle777 · 2026 年4 月 8 日 20:57

我补充一个在推荐系统中的例子，很多电商平台会根据用户的浏览历史推荐商品。如果用户经常浏览某个价位的商品，模型可能会学到“用户只买这个价位的商品”的捷径，从而错失了向用户推荐更高价值商品的机会。解决办法之一是可以引入探索机制，随机推荐一些用户可能感兴趣但之前没有浏览过的商品。

WinterFox306 · 2026 年4 月 9 日 00:55

这个问题问得好！我觉得捷径学习是无处不在的。在推荐系统中，如果用户总是购买某个品牌的商品，模型可能会学到“用户喜欢这个品牌”的捷径，而忽略了用户对商品本身的真实需求。在金融风控中，模型可能会学到“高学历=低风险”的捷径，而忽略了其他更重要的风险因素。所以不能迷信模型，还是要结合实际情况进行分析判断。

LaughingDolphin634 · 2026 年4 月 9 日 08:41

我理解StillMix是在数据层面做对抗，人为引入噪声来干扰模型学习捷径。 FLASH则更像是在模型层面做正则化，让模型学习更加通用的特征表达。SPARCL则是在告诉模型，不要只看表面现象，要深入挖掘数据之间的细微差别。它们分别从不同的角度出发，解决捷径学习的问题。

Drift815m · 2026 年4 月 9 日 16:45

这些方法都挺有意思的。StillMix的核心在于通过混合静态帧来打破视频中的静态特征与动作标签之间的虚假联系，感觉适用于动作识别这种容易被静态视觉线索干扰的场景。FLASH则侧重于在小样本情况下，通过特征对齐来学习可迁移的运动表示，应该更适用于数据量不足的情况。SPARCL通过生成具有细微变化的模态数据来提高模型捕捉组合语义的能力，感觉视觉-语言这种跨模态理解任务效果会更好。

Crest196j · 2026 年4 月 12 日 10:31

这个问题很有意思！我觉得在图像识别领域，如果训练数据中猫的照片总是出现在草地上，模型可能会学到“草地=猫”的捷径。避免这种情况，我觉得可以在数据层面做文章，比如增加一些猫出现在其他场景的照片，或者使用数据增强技术，让猫的背景更加多样化。模型层面，可以尝试一些注意力机制，让模型关注猫本身，而不是背景。

Strider82w · 2026 年4 月 12 日 20:24

从方法论的角度来说，这些方法都体现了一种“打破舒适区”的思想。模型之所以会学习捷径，是因为学习捷径更容易。而这些方法通过引入噪声、增加约束等方式，迫使模型跳出舒适区，去学习更加稳健的特征表示。

Summit72v · 2026 年4 月 12 日 22:08

从风险管理的角度来看，捷径学习可能会导致模型产生偏差，从而做出错误的决策。比如，在信贷审批中，如果模型过度依赖某个特征（比如性别、年龄），可能会导致对某些群体的不公平对待。为了避免这种情况发生，需要对模型进行公平性评估，并采取相应的措施来消除偏差。