从两层网络到基础模型：特征学习的训练与适应

DatapiTHU · 2025 年3 月 3 日 13:18

这篇博士论文探讨了神经网络特征学习的机制及其在基础模型适应中的作用，并提出了改进基础模型性能的实用方法。

原文标题：【博士论文】特征学习中的训练与适应理解：从两层网络到基础模型

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247653534&idx=3&sn=e8c5f2b2c730b396aa578d7616c3df59&

冷月清谈：

这篇博士论文深入探讨了神经网络中特征学习的产生机制及其在基础模型适应下游任务中的关键作用。论文首先从理论角度分析了特征学习的出现，解释了神经网络如何在训练早期有效学习类别相关模式，并避免维度灾难。研究表明，这种能力源于网络对输入数据固有结构的利用。论文以两层网络为例，构建了一个统一的分析框架，阐述了特征学习如何超越传统核方法。此外，论文还分析了Transformer架构中的傅里叶特征，揭示了模型规模与上下文学习行为之间的关联：大模型覆盖更多隐藏特征，小模型则强调重要特征。基于这些理论发现，论文提出了一些改进基础模型性能的实用方法，例如利用核范数正则化增强领域泛化能力，以及通过新型正则化方法平衡对比学习中的普适性和标签效率。论文还介绍了回环Transformer以实现多步梯度下降的上下文学习，并提出了GemFilter算法以加速大型语言模型推理，最终提升机器学习系统的效率和效能。

怜星夜思：

1、论文中提到的『网络利用输入数据的固有结构』是什么？有哪些具体的例子？
2、如何理解论文中提到的模型规模与上下文学习行为之间的关系？
3、论文提到的几种改进基础模型性能的方法，在实际应用中有哪些局限性？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本论文探讨了特征学习在神经网络训练中的出现，并展示了其在基础模型适应下游应用中的关键作用。

https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf

深度神经网络在人工智能各个领域取得了显著的成功。其成功的关键因素之一是它们从数据中学习有效特征表示的能力，这使得它们与传统的机器学习方法有所不同。本论文探讨了特征学习在神经网络训练中的出现，并展示了其在基础模型适应下游应用中的关键作用。

首先，我们提供了关于神经网络中特征学习出现的理论见解。我们展示了网络在早期训练阶段可以使用最小的参数有效地学习与类别相关的模式，从而避免了传统方法中常见的维度灾难。我们的分析揭示了这一能力来源于网络能够利用输入数据的固有结构。我们为通过梯度下降训练的两层网络开发了一个统一的分析框架，刻画了特征学习如何超越核方法进行发生。我们将研究扩展到Transformer架构，分析了单层Transformer中的傅里叶特征，并揭示了模型规模与上下文学习行为之间的关系。我们的研究发现，较大的模型覆盖了更多的隐藏特征，而较小的模型则强调重要特征，导致了不同的上下文学习行为。

基于这些理论见解，我们为基础模型开发了实际应用。我们引入了核范数正则化以提高领域泛化能力，展示了在各种任务中一致的性能提升。我们通过一种新型正则化方法解决了对比学习中普适性和标签效率之间的权衡问题。此外，我们提出了回环Transformer，用于实现多步梯度下降的上下文学习，并开发了GemFilter算法，利用早期层的注意力特征来加速大型语言模型推理。

本论文推动了我们对神经网络中特征学习的理解，并提供了改善基础模型性能的实际方法，从而开发出更高效、更有效的机器学习系统。**

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Summit72v · 2025 年3 月 5 日 10:19

关于对比学习中的普适性和标签效率的权衡问题，虽然论文提出了一种新的正则化方法，但这种方法的效果可能依赖于具体的任务和数据集。在某些情况下，提高普适性可能会牺牲标签效率，反之亦然。如何找到最佳的平衡点，还需要进一步的研究。

StormyRaven098 · 2025 年3 月 6 日 08:02

引用一下原文“我们展示了网络在早期训练阶段可以使用最小的参数有效地学习与类别相关的模式”，我觉得这里说的“固有结构”指的应该是数据中与类别相关的模式。比如说，猫的图片通常包含尖耳朵、胡须等特征，这些特征就是猫这个类别的数据的固有结构。网络学习到的特征，实际上就是这些与类别相关的模式。

WinterFox306 · 2025 年3 月 6 日 10:41

我觉得这个问题可以从数据分布的角度来理解。比如，MNIST手写数字数据集，虽然每个数字的写法略有不同，但它们都遵循一定的模式，比如数字“1”通常是一条竖线，数字“8”是两个圈。这些模式就构成了数据的固有结构。神经网络学习的过程，就是学习这些模式，并将其编码到网络的权重中。所以，即使输入一张新的手写数字图片，网络也能根据学习到的固有结构进行识别。

HarvestMoon921 · 2025 年3 月 7 日 12:59

关于“网络利用输入数据的固有结构”，我认为指的是数据本身存在的内在规律和模式，例如图像中的空间相关性、文本中的语法结构等。拿图像来说，相邻像素通常具有相似的颜色或纹理，这就是一种固有结构。神经网络可以通过卷积等操作有效捕捉这种空间相关性。再比如自然语言处理，句子中的词语之间存在语法和语义上的联系，Transformer模型中的注意力机制就可以学习到这些依赖关系。所以，我认为神经网络的强大之处在于能够自动发现并利用这些固有结构来学习有效的特征表示。

Lunar391e · 2025 年3 月 7 日 21:13

我觉得可以这样理解，大模型就像一个博览群书的学者，掌握了大量的知识，所以在面对新问题时，可以根据已有的知识进行推理和判断。而小模型就像一个专注于某个领域的专家，虽然在特定领域非常精通，但在面对跨领域问题时，可能会束手无策。

Zenith52p · 2025 年3 月 7 日 21:56

论文中提到，较大的模型覆盖了更多的隐藏特征，而较小的模型则强调重要特征，这导致了不同的上下文学习行为。我的理解是，大模型由于参数量巨大，可以学习到更多细粒度的特征，即使在少量样本的情况下也能进行有效的上下文学习。而小模型由于容量有限，只能关注最重要的特征，上下文学习的能力相对较弱。

Mystic98x · 2025 年3 月 8 日 10:08

GemFilter算法利用早期层的注意力特征加速大型语言模型推理，这听起来很不错，但实际应用中，早期层的特征可能包含较多的噪声，如何有效地过滤噪声是一个挑战。此外，对于不同的语言模型，GemFilter算法的有效性可能会有所不同，需要进行具体的测试和调整。

Stellar82k · 2025 年3 月 9 日 14:49

关于模型规模与上下文学习的关系，我认为可以从泛化能力的角度来解释。大模型由于学习到了更多隐藏特征，泛化能力更强，可以更好地适应不同的上下文。而小模型更倾向于记住训练数据中的特定模式，泛化能力较弱，上下文学习的效果自然不如大模型。

MidnightOwl519 · 2025 年3 月 10 日 13:34

论文中提到的核范数正则化，虽然可以提高领域泛化能力，但在实际应用中，核范数的计算成本较高，尤其对于大规模数据集来说，可能会成为一个瓶颈。另外，如何选择合适的正则化参数也是一个需要考虑的问题。