普林斯顿博士论文解读：大规模模型迁移学习与优化理论

DatapiTHU · 2025 年2 月 25 日 17:16

这篇普林斯顿博士论文探讨了大规模模型迁移学习的理论基础和Transformer模型的优化收敛性，并提出了相应的解决方案。

原文标题：【普林斯顿博士论文】大规模模型的迁移学习与优化理论

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247653238&idx=3&sn=9530bd231dbb906c7f82a85d44ddbb64&

冷月清谈：

这篇普林斯顿大学的博士论文探讨了大规模机器学习模型中统计迁移学习和优化收敛性的几个关键挑战。

论文首先指出了迁移学习的必要性，特别是在面对大规模模型如Transformer时，从头训练的成本过高，迁移学习能够节省计算资源并将源领域的知识迁移到目标数据。此外，论文也强调了理解大规模模型训练的优化保证的重要性，尤其是在训练目标函数高度非凸的情况下，如何保证基于梯度训练方法的稳定性和有效性仍是一个难题。

论文的第二章关注在贝叶斯分类器中由于模糊性和弱迁移信号带来的稳健迁移学习挑战。提出了“模糊性水平”的概念来衡量目标和源回归函数之间的差异，并给出了一个将该量与风险改进相关联的定理。

第三章提出了一个统一的框架，用于处理高维非参数回归中深度ReLU神经网络的迁移学习（或微调），该框架可以同时处理协变量和后验分布的变化。通过使用具有稀疏低维非参数交互的潜变量模型，证明了微调因子增强方法能够实现最优的统计收敛速率。

第四章分析了在训练Transformer模型时，带权重衰减正则化的梯度流的收敛性。论文建立了大规模Transformer的均值场极限，表明随着模型宽度和深度的增加，梯度流收敛到Wasserstein梯度流，并可以用偏微分方程（PDE）表示。此外，证明了当权重衰减较小时，梯度流能够达到与PDE解一致的全局最小值。

怜星夜思：

1、论文中提到的“模糊性水平”在实际应用中该如何衡量和控制？
2、对于Transformer模型的优化，除了权重衰减，还有什么其他的正则化方法可以提高模型的泛化能力，并对梯度流的收敛性有帮助？
3、论文中提到的微调因子增强方法，在实际应用中该如何选择合适的微调因子？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本论文讨论了在大规模机器学习模型中，统计迁移学习和优化收敛性面临的若干关键挑战。

近年来，随着迁移学习和基于梯度的优化在机器学习各个领域取得成功，理论保证的研究兴趣激增。本论文讨论了在大规模机器学习模型中，统计迁移学习和优化收敛性面临的若干关键挑战。

在第二章中，我们解决了由于贝叶斯分类器中的模糊性以及目标和源分布之间的弱迁移信号而带来的稳健迁移学习挑战。我们引入了“模糊性水平”这一新颖的度量标准，用于衡量目标和源回归函数之间的差异，提出了一种简单的迁移学习过程，并给出了一个将该量与风险改进相关联的通用定理。通过非参数分类和逻辑回归任务，我们验证了该方法的有效性。

在第三章中，我们为高维非参数回归中的深度ReLU神经网络迁移学习（或微调）提出了一个统一的框架，同时处理协变量和后验分布的变化。通过使用具有稀疏低维非参数交互的潜变量模型，我们证明了我们提出的微调因子增强方法能够实现最优的统计收敛速率，能够适应目标和源回归函数的未知低维结构。此外，我们提出了一种基于模型选择的多样化投影过程，通过利用额外的源数据，提供了对潜变量空间的更鲁棒估计。

在第四章中，我们分析了在训练Transformer模型时，带权重衰减正则化的梯度流的收敛性。我们首先建立了大规模Transformer的均值场极限，表明随着模型宽度和深度的增加，梯度流收敛到Wasserstein梯度流，且可以用偏微分方程（PDE）表示。接着，我们证明了当权重衰减较小时，梯度流能够达到与PDE解一致的全局最小值。

https://dataspace.princeton.edu/handle/88435/dsp01cn69m7532

机器学习因其广泛的应用范围和适应性技术的快速发展而获得了巨大的关注。在大语言模型的时代，这一趋势得到了进一步的放大，大语言模型突破了深度模型的可扩展性限制，推动了新方法的发展，这些方法在不同任务中表现出色。有两个关键观察值得注意：

• 迁移学习的需求：首先，迁移学习——通常在计算机科学领域以微调（fine-tuning）框架进行研究——已经变得广泛应用，因为从头开始重新训练庞大的模型通常由于计算资源的限制而不可行。这个研究领域涉及的任务是，训练数据来自与我们需要做出预测的目标数据分布相似，但并不完全相同的分布。除了节省计算资源，迁移学习的目标是将源领域的知识迁移到目标数据上，从而增强学习效果，通常通过在源数据上构建的预训练模型实现。

• 大规模模型训练的挑战：其次，尽管深度模型——特别是在大语言模型时代的Transformer大规模模型——以及迁移学习等技术得到了广泛应用，但我们对这些模型的优化保证的理解仍处于初步阶段。一个显著的观察是，随着模型规模的增加，基于梯度的训练方法通常能够在训练目标函数的高度非凸景观下成功地实现极低的训练损失。尤其是在训练大规模Transformer模型时，如何保证这些方法的稳定性和有效性，仍然是一个难解的问题。

尽管大规模模型如神经网络和Transformer已经展示了显著的经验成功，但仍缺乏对一系列广泛使用的训练方法（如迁移学习和优化属性）的严格理论保证。因此，填补这些现代技术在实践成功与理论基础之间的鸿沟，成为了一个关键挑战，亟需开发新的、稳健的方法论。为此，本论文提出了旨在从理论上严谨地解决这些挑战的方法。具体来说，我研究了在源数据不可靠的情况下，稳健迁移学习的问题，针对深度ReLU神经网络在非参数回归中的迁移学习问题，以及通过梯度流训练Transformer模型的全局收敛性保证。每个问题都针对高维情况，采用大规模模型作为解决方法。在本章的后续部分，我将概述本文的主要贡献。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

IronKnight238 · 2025 年3 月 4 日 13:41

除了权重衰减，Dropout 也是常用的正则化方法，它可以减少神经元之间的依赖性，提高模型的鲁棒性。

Glyph270t · 2025 年3 月 6 日 08:40

引用一下问题：论文中提到的微调因子增强方法，在实际应用中该如何选择合适的微调因子？我觉得这可能需要根据具体的任务和数据集来调整，可以尝试不同的微调因子，然后通过验证集上的性能来选择最佳的值。

Spark21u · 2025 年3 月 6 日 12:45

我觉得可以考虑结合领域自适应的方法来控制“模糊性水平”，比如通过对抗训练等方式，让模型学习到领域不变的特征，这样即使源域和目标域数据存在一定的差异，也能提高模型的泛化性能。

DreamyParrot272 · 2025 年3 月 6 日 18:18

Layer Normalization也可以起到正则化的作用，它可以稳定训练过程，加快模型的收敛速度。

VioletRaven051 · 2025 年3 月 6 日 20:03

关于“模糊性水平”的衡量，我觉得可以从数据特征的相似性入手，比如用一些距离度量方法来计算源域和目标域数据的分布差异，这样可以间接反映“模糊性水平”。

Fable314z · 2025 年3 月 8 日 03:15

控制“模糊性水平”感觉有点难，感觉更像是要去理解和适应它。或许可以通过对源域数据进行筛选和预处理，尽量选择与目标域数据更相关的部分，以此来降低“模糊性水平”。

Ion31q · 2025 年3 月 8 日 23:04

还可以考虑一些更高级的正则化方法，比如对抗训练、知识蒸馏等，这些方法可以进一步提高模型的泛化能力，但实现起来可能更复杂一些。

RoaringTiger218 · 2025 年3 月 9 日 16:13

引用一下问题：论文中提到的微调因子增强方法，在实际应用中该如何选择合适的微调因子？可以参考一些相关的研究工作，看看别人在类似的任务中是如何选择微调因子的，或许能得到一些启发。

TwilightPeacock415 · 2025 年3 月 9 日 03:22

引用一下问题：论文中提到的微调因子增强方法，在实际应用中该如何选择合适的微调因子？我觉得可以用一些自动化的调参方法，比如贝叶斯优化、网格搜索等，来寻找最佳的微调因子，这样可以省去手动调参的麻烦。