视觉Transformer中的归纳偏置：语境依赖的设计工具

DatapiTHU · 2026 年2 月 19 日 14:07

研究表明，视觉Transformer中的归纳偏置是语境依赖的设计工具，在数据和算力充足时，其重要性会降低。

原文标题：【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665061&idx=2&sn=5fa91fb727972f0d335b9f7d39f79203&

冷月清谈：

本文深入探讨了视觉Transformer中归纳偏置的角色和影响。研究指出，归纳偏置并非总是带来正面效果，在某些情况下反而会限制模型的表征能力。论文提出，归纳偏置应被视为一种语境依赖型的设计工具：在数据或计算资源有限的情况下，归纳偏置至关重要，能加速收敛并提升样本效率；但在大规模制度下，其重要性减弱，模型可以通过更大的灵活性从数据中自发涌现结构。文章还回顾了归纳偏置在人工智能发展史中的演变，从早期的统计性、显式偏置，到深度学习中更灵活和抽象的架构选择，强调了在深度学习中，模型灵活性与精心设计的偏置之间的动态关系。

怜星夜思：

1、文章提到，大规模制度下，模型可以通过更大的灵活性从数据中自发涌现结构。那么，我们应该如何理解这种“自发涌现”，它与传统的特征工程有何不同？
2、归纳偏置在深度学习中变得更加“柔软”、抽象，甚至隐匿于架构选择、训练范式或正则化策略之中。这种“柔软”的归纳偏置，我们应该如何去识别和利用？
3、文章提到，深度学习阐释了一个核心悖论：模型越趋于灵活，就越需要精心设计的偏置，以确保学习过程的稳定性、高效性与泛化性。那么，在追求模型灵活性的同时，我们应该如何把握偏置设计的“度”？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        本论文提出：归纳偏置本质上应被视为一种语境依赖型 (context-dependent) 的设计工具。

归纳偏置（Inductive biases）长期以来被视为构建高效计算机视觉模型的核心基石，卷积神经网络（CNNs）的卓越成就进一步巩固了这一观点。受此启发，本论文的研究初期致力于在 Transformer 架构中引入显式偏置 (explicit biases)，以确保稳健的实证性能 (empirical performance)。然而，随着研究的推进，这一假设受到了系统性的重新审视。

多项研究的累积证据表明，尽管归纳偏置有助于加速收敛 (facilitate convergence) 并提升样本效率 (sample efficiency)，但其并非在所有场景下均能产生正向收益；在特定语境下，归纳偏置反而可能抑制模型的表征能力 (representational capacity)。

基于上述发现，本论文提出：归纳偏置本质上应被视为一种语境依赖型 (context-dependent) 的设计工具。在数据规模或计算资源受限的情况下，归纳偏置不可或缺；但在大规模制度 (large-scale regimes) 下，其重要性则相对减弱。在后者中，高度的模型灵活性使得结构能够直接从数据中自发涌现 (emergence of structure)。

在人工智能的发展史中，归纳偏置（Inductive biases）被视为使学习成为可能的“隐藏支架” [148, 209]。它们构成了引导系统从有限数据中实现泛化的假设、约束与设计选择。若缺乏此类偏置，模型将无法从数据中收敛至唯一的解释，因为存在无数种与观测结果相一致的潜在解释。归纳偏置通过限制这一可能性空间，助力学习器聚焦于高效、结构化且具有实用价值的解释。

在机器学习的早期阶段，归纳偏置通常是统计性的且显式的。线性回归 [109] 假设输出可表示为输入的加权和，这使其在处理具有近线性关系的问题（如房价预测 [183] 或考试成绩预测 [46]）时表现卓越。以使用 RBF 核的支持向量机 (SVM) [19, 180] 为代表的核方法，通过固定变换编码相似性，进一步扩展了这一思想，并在数字识别等应用中证明了其有效性。包括贝叶斯网络 [88, 161] 在内的概率模型，则通过表示变量及其依赖关系引入了捕捉不确定性的方法，从而实现了基于观测症状进行疾病推理等任务。尽管这些方法展示了精心设计的偏置所蕴含的力量，但其适用范围受限，因为其成功高度依赖于专家知识来构建有效的特征与模型结构。

深度学习 [11, 122] 的兴起改变了归纳偏置的表达方式。神经网络架构不再依赖手工特征，而是被设计为直接从原始数据中学习。卷积层 [121] 与循环连接 [92] 均体现了一种新型的归纳偏置：它们在对数据进行结构化假设的同时，仍保留了学习的灵活性。其中，卷积假设了局部平稳性 (local stationarity)，而循环连接则假设了时间依赖性 (temporal dependence)。注意力机制 [6] 通过在无固定假设的情况下捕捉长程依赖关系，进一步推进了这一进程，并为 Google Translate [106] 和 ChatGPT [18, 157, 169, 170] 等系统提供了核心驱动力。值得注意的是，这些设计选择并不直接规定具体特征，而是引导特征的发现过程。

深度学习的持续演进凸显了归纳偏置与规模（Scale）之间的动态关系。随着数据集和计算能力的扩展，对强人工设计偏置的需求逐渐减弱，转而让位于更通用的架构。然而，偏置并未消失，而是变得更加“柔软”、抽象，并有时隐匿于架构选择、训练范式或正则化策略之中。因此，深度学习阐释了一个核心悖论：模型越趋于灵活，就越需要精心设计的偏置，以确保学习过程的稳定性、高效性与泛化性。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Summit72v · 2026 年2 月 26 日 02:35

这要看具体场景。虽然 Transformer 在很多领域都取得了显著成果，但 RNN/LSTM 在处理长时依赖性问题时，可能仍然具有优势。RNN 的归纳偏置是时间依赖性，它天然地对序列数据有记忆功能。Transformer 虽然可以通过 Attention 机制捕捉长程依赖，但计算复杂度较高，且对序列信息的建模方式与 RNN 有本质区别。所以，选择哪种模型，要根据数据的特性和任务的需求来决定。

RadiantButterfly764 · 2026 年2 月 26 日 13:19

可以这样理解，‘柔软’的归纳偏置就像是给模型加了各种各样的隐形buff。想要识别它们，得变成一个侦探，从模型的表现反推出它受到了哪些“buff”的影响。比如，用了某种数据增强方法，模型的抗噪能力变强了，那这个数据增强方法就是一种’柔软’的归纳偏置。利用它们，就要学会搭配不同的’buff’，让模型达到最佳状态。

HiddenPanda648 · 2026 年2 月 28 日 03:38

可以将这个问题理解为控制模型的复杂度。过于灵活的模型容易过拟合，过于僵化的模型则可能欠拟合。偏置设计的作用就是通过引入先验知识，来约束模型的搜索空间。我认为，应该从简单模型开始，逐步增加模型的复杂度和灵活性，同时密切关注模型的性能变化，一旦发现过拟合的迹象，就要及时调整偏置设计，或者增加正则化项。

RedFox202 · 2026 年2 月 28 日 03:09

我的理解是，这个“度”就像炒菜时的火候，太大了容易糊，太小了不入味。模型太灵活，就像火候太大，容易跑偏；偏置太强，就像火候太小，学不到东西。所以，要根据数据的“食材”特性，不断调整模型的“火候”，才能炒出一盘美味佳肴。简单来说，就是多做实验，多观察，找到最合适的平衡点。

StormyRaven098 · 2026 年3 月 1 日 15:34

从学术角度讲，传统特征工程是人为地对数据进行转换，以提取出对特定任务有用的特征，这依赖于对领域知识的深刻理解。而“自发涌现”则是一种模型在训练过程中自动学习特征表示的能力。它更强调模型的泛化能力，而非针对特定任务的优化。个人认为，这两种方法并非完全对立，而是可以结合使用，例如，可以使用特征工程进行预处理，再让模型进行自发学习。