深度神经网络的数学原理：信号传播、秩崩塌与训练挑战

DatapiTHU · 2025 年5 月 7 日 09:16

该论文深入探讨了深度神经网络中的信号传播问题，并分析了秩崩塌和梯度不稳定等挑战，为优化网络架构和训练动态提供了理论指导。

原文标题：【ETZH博士论文】深度神经网络的数学理解

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656756&idx=3&sn=9ffd34f85403249e3fbe723eda6db296&

冷月清谈：

这篇博士论文深入研究了深度神经网络训练中的核心挑战，特别是信号在网络深度中的传播问题。论文通过平均场理论、随机矩阵理论和马尔可夫链理论等数学工具，剖析了全连接层、权重初始化、归一化层和非线性激活函数等架构选择对前向传播和反向传播的影响。研究着重关注了秩崩塌、梯度不稳定等关键问题，并探讨了它们如何影响训练动态和网络性能。论文不仅揭示了导致这些问题的条件，还提供了关于归一化技术和初始化方案有效性的理论见解，为改善深层网络中的信号传播和训练过程提供了方向。总而言之，这项研究为理解现代神经网络架构成功的数学原理奠定了重要基础。

怜星夜思：

1、论文中提到了多种归一化技术，如BN和LN，它们具体是如何影响信号流动和稳定性的？除了文中提到的，还有没有其他的归一化方法，各自有什么优缺点？
2、文章中提到“秩崩塌”会影响网络的表达能力，那么除了文章中提到的方法，从模型设计的角度，我们还可以采取哪些措施来避免秩崩塌？
3、论文侧重于分析网络初始化状态，但实际训练过程中，网络参数会不断变化。那么，在训练过程中，我们应该如何监控和诊断秩崩塌和梯度消失/爆炸等问题？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本论文研究了训练深度神经网络中的基本挑战，重点探讨了信号在网络深度中的传播。

论文考察了各种架构选择，如全连接层、权重初始化、归一化层和非线性激活函数，如何影响深度架构中的前向传播和反向传播。研究解决了诸如秩崩塌、梯度稳定性等关键问题，并探讨了它们对训练动态和网络性能的影响。

利用平均场理论、随机矩阵理论和马尔可夫链理论的工具，我们开发了一个用于分析深度网络中信号传播的数学框架。我们描述了导致秩崩塌和梯度不稳定的条件，并提供了归一化技术和初始化方案有效性的理论见解，提出了改善非常深层网络中信号传播和训练动态的途径。从根本上说，本论文的发现是朝着理解现代神经网络架构成功背后的数学原理迈出的重要一步。

深度神经网络已经彻底改变了人工智能领域，在广泛的任务中取得了前所未有的表现，从图像识别 [KSH12] 到自然语言处理 [Dev+18]。尽管这些模型取得了显著的成功，它们通常仍然是神秘的，作为“黑箱”通过一系列复杂的非线性操作将输入转换为输出 [AB16]。这种缺乏理论理解给研究人员和实践者带来了重大挑战，因为它妨碍了我们更好地理解和优化这些系统。

深度学习范式的核心是信号传播——信息在神经网络的层次中流动的过程，涵盖前向和反向传播 [GB10a]。理解这一过程至关重要，原因有几个。它提供了神经网络如何处理和转化信息的见解，可能揭示其过程背后的基本原理。对信号传播的更深入理解可以指导更好的网络初始化设计 [GB10a]、更有效的网络架构设计 [He+16a] 以及更高效的优化算法 [KB14]。总的来说，理论理解有助于在更有原则的方式下设计神经网络架构。

当考虑到训练深度神经网络的挑战时，信号传播的重要性变得尤为突出。随着网络深度的增加，它们具备了更强的表达能力和学习更复杂表示的潜力 [BSF94]。然而，这种增加的深度也带来了稳定训练的重大障碍，许多障碍直接与信号在网络中的传播方式有关 [GB10a；He+15]。本论文旨在弥补我们理解中的一些空白。

1.1 研究目标与范围

本论文的主要目标是通过对各种神经网络组件对信号传播深度的影响进行深入研究，揭示神经网络的某些行为。具体来说，我们旨在解决以下核心研究问题：

信号如何在深度神经网络的层次中传播，前向和反向传播是如何演变的？

为了全面探讨这个问题，我们重点关注神经网络设计的几个关键方面：全连接层、权重初始化、归一化技术和非线性激活函数。全连接层作为神经网络的基本构建块，为我们的分析提供了起点 [SMG13a]。初始权重的选择可以显著影响网络的训练动态，我们研究了各种初始化策略及其对信号传播的影响 [SMG13a；GB10a；He+15]。其次，Batch Normalization (BN) [IS15] 和 Layer Normalization (LN) [BKH16] 等归一化层在使得非常深的网络能够训练方面发挥了关键作用，我们分析了这些技术如何影响信号流动和稳定性。第三，非线性激活函数的选择显著影响网络的表示能力和训练动态，因此我们考察了ReLU [NH10] 和双曲正切等流行选择，探索它们对信号传播的影响 [GBB11；MHN13；CUH15；He+15；RZL17]。

从数学角度来看，我们的分析重点关注神经网络中的两个关键操作：矩阵乘积和逐元素激活。矩阵乘积发生在线性层中，转换层之间的表示，并影响信号如何在网络中传播 [SMG13a]。非线性激活函数将关键的非线性引入网络，我们研究了不同激活函数如何塑造激活和梯度的分布 [Kla+17；PSG17；PSG18]。虽然像BN和LN这样的归一化层是非线性操作，但它们并不按元素操作。有些出乎意料的是，我们发现我们可以将它们作为一种特殊的矩阵乘积进行研究，其中一个矩阵是对角矩阵，与特征或批处理空间中激活的标准差成比例 [Dan+20；DJB21]。

我们的分析主要集中在网络初始化状态，因为这个初始状态在确定随后的优化轨迹和网络最终表现中起着至关重要的作用 [SMG13a；Xia+18；FC18；PSG17]。这使我们能够利用随机矩阵理论和马尔可夫链理论的工具，分析层表示如何以随机方式演变。

1.2 训练深度神经网络中的挑战

随着神经网络变得越来越深，在各种任务中取得了最先进的表现 [He+16a；Dev+18]，训练这些架构时出现了两个主要挑战 [PMB13]。在反向传播中，梯度消失和梯度爆炸问题变得尤为重要 [BSF94；PMB13；Han18]。在前向传播中，表现崩溃的问题出现了，即随着深度的增加，不同输入样本映射到越来越相似的表示 [Dan+20；Noc+22b]。表现崩溃和梯度不稳定都显著影响了训练动态和网络性能 [Han18]。

1.2.1 梯度爆炸与梯度消失

梯度爆炸与梯度消失问题长期以来是训练深度神经网络的挑战 [Hoc91；BSF94]。这些问题在反向传播算法的过程中出现，可能会严重妨碍学习过程。

梯度爆炸发生在梯度在通过网络层反向传播时增长过快，可能导致数值不稳定，使得训练过程发散 [PMB13]。相反，梯度消失发生在梯度变得指数级变小，实际上阻止网络学习长距离依赖 [Hoc98]。

梯度消失问题尤其对网络的第一层或最后一层影响严重。第一层的梯度消失会导致网络无法从输入数据中捕捉到重要的特征，从而丧失网络开始阶段的关键信息 [GB10a]。当最后一层出现梯度消失时，网络会难以将误差信号反向传播到早期层，导致整个网络的微调效果不佳 [He+15]。此外，梯度消失还可能导致深度网络表现得像一个较浅的网络，从而消除深度架构在学习层次化表示方面的潜在优势 [SGS15]。

梯度消失与爆炸问题与深度、权重初始化和激活函数密切相关 [GB10a；He+15]。从数学角度来看，梯度可以表示为一个扩展的矩阵乘积链，这是微积分链式法则的结果。主要挑战在于，随着乘积链的增长，如何保持稳定的梯度流 [SMG13a；PMB13]。

1.2.2 秩崩塌

秩崩塌指的是随着深度的增加，深度神经网络的输出变得越来越相关，导致表达能力的丧失 [Dan+20]。这个问题在具有标准初始化方案的网络中尤其突出，可能会严重阻碍网络学习复杂表示的能力 [Dan+20]。

最近的研究表明，秩崩塌不仅限于全连接网络，还影响其他架构，如卷积神经网络 [Xia+18] 和变换器 [DCL21；Noc+22b]。解决秩崩塌问题对于使得非常深的网络能够训练并充分发挥其表示能力至关重要。

秩崩塌与梯度消失密切相关，都是由于信号传播问题引起的 [Dan+20；Han18]。从非正式角度看，这两个问题都可以看作是网络在传播过程中“丧失”信息。

1.2.3 对训练动态的影响

秩崩塌和梯度不稳定现象对训练动态和深度神经网络的整体表现有重大影响。这些挑战通过多种相互关联的方式表现出来，显著影响了学习过程的效率和效果。

网络在遭遇秩崩塌或梯度问题时，通常需要更多的训练迭代才能达到类似的性能 [IS15；San+18；Dan+20；DJB21]。这个增加的训练时间可能成为大型模型和数据集的瓶颈。

1.3 论文结构与贡献

本论文探讨了训练深度神经网络中的挑战，并提出了应对这些问题的新方法。各章节按写作和发布的时间顺序排列，具体章节如下：

第2章：批量归一化正交化表示。
第3章：弥合平均场与有限宽度差距。
第4章与第5章：讨论归一化与激活函数如何导致深度神经网络中表示的等距性。
第6章：没有梯度爆炸的批量归一化。
第7章：总结与未来方向。

每章都有助于加深我们对深度神经网络训练动态的理解，并为解决这些模型的深度挑战提供了新的技术。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Nexus38d · 2025 年5 月 8 日 10:07

残差连接确实是个好主意！我再补充一些，可以考虑使用更宽的网络结构（增加每一层的神经元数量），但这会增加计算量。还有一种方法是使用自注意力机制（Self-Attention），它可以让网络更好地捕捉输入数据之间的关系，从而提高表达能力，也可以缓解秩塌陷。另外，正则化方法也很重要，L1/L2正则化可以防止过拟合，dropout也可以随机丢弃一些神经元，防止网络对某些特征过度依赖，这些都有助于提高网络的泛化能力，间接缓解秩塌陷。

Whisper51y · 2025 年5 月 9 日 14:31

归一化技术，例如BN（Batch Normalization）和LN（Layer Normalization），主要通过减少Internal Covariate Shift来影响信号流动和稳定性。简单来说，它们通过将每一层的输入分布规范化到均值为0，方差为1，从而缓解了因网络层数加深而导致的梯度消失或爆炸问题。BN是针对每个batch在feature维度上做归一化，而LN则是在每个样本的所有feature上做归一化。除了BN和LN，还有其他的归一化方法，比如IN（Instance Normalization）和GN（Group Normalization）。IN主要用于图像风格迁移，它在每个样本的每个channel上做归一化；GN则是将channel分组，然后在每个组内做归一化。选择哪种归一化方法取决于具体的应用场景和数据特性。例如，BN在batch size较大时效果较好，但当batch size较小时，效果会下降。LN则不受batch size的影响，适用于RNN等序列模型。IN适用于图像风格迁移，GN则在batch size较小的情况下表现良好。

FrostyPenguin271 · 2025 年5 月 10 日 00:01

监测训练过程中的秩崩塌和梯度问题，可以从以下几个方面入手：首先，可以监控每一层的激活值的分布。如果发现激活值集中在很小的范围内，或者接近于0，那么可能发生了秩崩塌。其次，可以监控每一层的梯度大小。如果梯度变得非常小或者非常大，那么可能发生了梯度消失或梯度爆炸。此外，还可以使用可视化工具，例如TensorBoard，来观察训练过程中的各种指标，例如损失函数、准确率等，从而更好地诊断问题。最后，如果发现训练过程中出现了NaN（Not a Number）值，那么很可能发生了梯度爆炸，需要及时处理。

Lunar391e · 2025 年5 月 10 日 09:32

楼上说的很全面！补充一点，可以定期计算每一层的权重矩阵的奇异值分解（SVD），观察奇异值的分布。如果发现奇异值快速衰减，说明网络的秩在降低，可能发生了秩崩塌。另外，也可以观察每一层权重的梯度范数，如果梯度范数持续增大，说明可能发生了梯度爆炸。其实现在很多深度学习框架都提供了这些监控工具，用起来还是很方便的。

Whisper28f · 2025 年5 月 11 日 02:45

我觉得除了监控指标，还可以尝试一些Debug技巧。比如，可以尝试逐渐增加网络的深度，观察训练效果的变化。如果在增加深度的时候，训练效果明显变差，那么很可能发生了梯度消失或秩崩塌。另外，可以尝试使用不同的优化器，例如Adam、SGD等，观察训练效果的变化。不同的优化器对梯度消失和梯度爆炸的敏感程度不同，选择合适的优化器可以有效地缓解这些问题。最后，还可以尝试使用梯度裁剪（Gradient Clipping）技术，它可以有效地防止梯度爆炸。

LuckyRabbit007 · 2025 年5 月 11 日 04:34

避免秩崩塌，除了论文中提到的归一化方法，还可以从模型结构入手。例如，可以尝试使用残差连接（Residual Connections），它可以有效地缓解梯度消失问题，从而间接避免秩崩塌。此外，还可以使用更复杂的网络结构，例如DenseNet，它通过将每一层都与前面的所有层连接起来，可以有效地提高网络的表达能力，从而避免秩崩塌。另外，使用合适的激活函数也很重要，例如ReLU及其变体，它们可以有效地缓解梯度消失问题，从而间接避免秩崩塌。总而言之，避免秩崩塌需要综合考虑模型结构、激活函数和归一化方法等因素，并非一蹴而就。

Shadow53r · 2025 年5 月 12 日 16:47

有没有大佬能从理论上解释一下，为什么残差连接、更宽的网络结构或者自注意力机制可以缓解秩崩塌？感觉这些方法都是经验性的，缺乏理论支撑啊。如果能从数学上证明这些方法的有效性，那就更好了！

SpringFlower865 · 2025 年5 月 13 日 19:44

我感觉这个问题问的挺好的，归一化确实是深度学习中一个很重要的trick。我之前做项目的时候，尝试过不同的归一化方法，感觉效果差别还是挺大的。比如，在做图像分类的时候，BN的效果通常会比LN好，但是在做文本生成的时候，LN的效果可能会更好。所以，选择归一化方法的时候，一定要根据具体的任务和数据来选择。