SiameseNorm:清华&千问联手突破Transformer归一化壁垒,释放深度学习潜力

清华&千问提出SiameseNorm,一种解耦Pre/Post-Norm的Transformer架构,提升模型稳定性和表征能力,尤其在复杂推理任务上表现出色,让Transformer回归“深度”学习。

原文标题:清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

原文作者:机器之心

冷月清谈:

清华大学黄高 Leap Lab 团队联合千问 C 端团队提出了 SiameseNorm,一种新的Transformer架构,旨在解决Pre-Norm和Post-Norm之间的权衡问题。Pre-Norm保证了训练的稳定性,但限制了模型的表征能力,而Post-Norm具有更高的潜力,但训练不稳定。SiameseNorm通过孪生双流架构,巧妙地解耦了优化动力学,一条流通过Pre-Norm保证训练的稳定性,另一条流则利用Post-Norm特性极大地释放模型的表征潜力。实验证明,SiameseNorm 提高了模型的推理能力,尤其是在算术任务上,准确率提升显著。该架构无需依赖特定的参数微调,即可展现出超越基线的鲁棒性与性能,使得Transformer能够走出“浅层困境”,回归原始意义上的“深度学习”。

怜星夜思:

1、SiameseNorm 通过双流结构融合了 Pre-Norm 和 Post-Norm 的优势,那么这种双流结构是否可以应用到其他的神经网络架构中?如果可以,可能带来哪些收益和挑战?
2、文章提到 SiameseNorm 在算术任务上提升显著,这是否意味着它在其他需要深度推理的任务上也会有类似的提升? 这种提升主要归功于 SiameseNorm 的哪一个特性?
3、SiameseNorm 通过共享参数降低了计算开销,但双流结构本身仍然会增加一定的复杂性。未来是否有可能出现一种更简洁的单流架构,也能达到 SiameseNorm 的效果?

原文内容


在十九世纪的暹罗王国曾诞生过这样一对连体兄弟:他们分别拥有完整的四肢和独立的大脑,但他们六十余年的人生被腰部相连着的一段不到十厘米的组织带永远绑定在了一起。他们的连体曾带来无尽的束缚,直到他们离开暹罗,走上马戏团的舞台。十年间,两兄弟以近乎合二为一的默契巡演欧美,获得巨大成功。


此后,人们曾用他们的故乡之名,将这种连体现象称作 Siamese Twins(暹罗双胞胎)。后来,这一命名跨越了生物学的边界。1993 年,Yann LeCun 将其引入神经网络,创造了共享权重的 Siamese Network(孪生网络),用于衡量输入的相似性。


时光流转,在二十一世纪的今天,人工智能领域也有一对 “双胞胎”——Pre-Norm(前置归一化)和 Post-Norm(后置归一化)。他们为解决大模型训练稳定性而生,迅速成为 Transformer 架构中用于稳定信号流的关键范式。


然而,归一化带来的训练稳定性并非没有代价,两种归一化范式之间似乎面临着难以调和的权衡取舍。


尽管近年来 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名开源基座所采用,但多项研究共同指向了一个严峻事实:Pre-Norm 架构存在严重的 “深度失效” 问题 —— 大量深层参数虽在参与计算,却无法拓展模型的表征能力,致使模型的 “有效深度” 严重受限。


与之相对的,尽管从表征能力角度 Post-Norm 拥有更高潜力,但其训练不稳定性在现代 Transformer 的预训练范式下是毁灭性的。于是,Pre-Norm 与 Post-Norm 这一对为解决同一难题而诞生的双胞胎,在各自追求 “稳定” 与 “深度” 的道路上分道扬镳。


难道稳定与深度,注定是一场无法调和的零和博弈吗?


近日,清华大学黄高 Leap Lab 团队联合千问 C 端团队给出了一份全新的答案 —— SiameseNorm。



  • 论文标题:SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm

  • 论文链接:https://arxiv.org/abs/2602.08064


这一创新的孪生双流架构,巧妙地解耦了优化动力学:它并未在 Pre-Norm 与 Post-Norm 之间做二选一的取舍,而是构建了两条参数共享的平行通路。


在这一架构下,一条流通过 Pre-Norm 机制保证训练的稳定性,另一条流则利用 Post-Norm 特性极大地释放模型的表征潜力。这种设计让每个残差块都能接收到来自两种范式的组合梯度,在几乎不增加计算开销的前提下,实现了高学习率下的稳定训练。这一精巧的双流协作,恰如默契的暹罗双胞胎,将两种范式的对立转化为深度融合的协同优势。


可以看到,SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合


1. 困境:单主干架构的先天缺陷与范式对立


前置还是后置?这仿佛是 Transformer 世界的 “鱼与熊掌”。研究者不得不在 “训练稳定但可能平庸” 的 Pre-Norm 与 “潜力巨大却难以驾驭” 的 Post-Norm 之间做出艰难抉择。更令人困扰的是,任何试图在单主干(Single-Stream)架构 —— 即在共享同一条信息主干线的经典设计中调和二者的努力,都遭遇了数学上的根本性障碍。


痛点 1:Pre-Norm 的 “稀释” 与 Post-Norm 的 “畸变”


Transformer 的设计核心在于残差连接。然而,现有的两种主流范式都存在致命的结构性缺陷:


  • Pre-Norm (稀释问题): 为了保证梯度畅通,Pre-Norm 保留了一条干净的恒等路径(Identity Path)。但这导致主干流的信号幅度随深度巨幅增长 。到了深层,层归一化(LN)后的输入相对于巨大的主干流来说微乎其微,导致深层网络的贡献被 “稀释”,模型实际上退化成了 “浅层” 网络。最直观的实验证据来自于层剪枝(Layer Pruning)实验:将 Pre-Norm 模型 30% 的层直接移除,在零微调的情况下,其评估指标竟几乎没有损失。



  • Post-Norm (畸变问题): Post-Norm 强制在残差相加后进行归一化,保证了表示的效率,理论上限更高。但这也意味着它在每一步都在强行 “压缩” 信号,导致梯度的传导被破坏,容易引发梯度消失或爆炸。


痛点 2:两大范式的不可兼容性


目前的混合方案(Hybrid)试图在两者间寻找平衡,但论文深刻地揭示了,这两种结构在单主干设计中本质上是互斥的:


  • 梯度的 “无损传输” vs. 信号的 “尺度束缚”: Pre-Norm 的稳定性依赖于保留严格的恒等路径(Identity Path),这意味着必须允许信号幅度在主干中自然增长,以确保梯度能够无损传播。相反,Post-Norm 的高效性依赖于严格规范(Regulation),即在主干中通过归一化限制信号幅度,以维持特征的表达效率 。

  • 单主干的理论极限:论文指出,在共享同一条主干路径的前提下,在数学上不可能同时做到两件事:既保留一条完全干净、不受阻碍的梯度通道(Pre-Norm 的要求),又同时对主干信号强制施加严格的幅度约束(Post-Norm 的要求)。


因此,任何试图在单主干结构内强行融合两者的尝试(如交替使用或混合归一化),最终都只能是一种 “妥协”:它们不仅无法兼得二者之长,反而继承了 Post-Norm 的不稳定性,导致在高学习率下训练崩溃。要打破这个僵局,必须从结构上进行彻底的解耦(Decoupling)。


2. 破局:SiameseNorm 的双流解耦之道


两条流拥有相同的输入,而通过不同的 LayerNorm 位置,两条流随后分化。


SiameseNorm 的核心洞察在于:我们无法在单一信号流中同时满足 “梯度传导” 和 “表示规范” 这两个互斥的需求。


因此,SiameseNorm 引入了 “孪生双流”(Siamese)机制 :


1. Pre-Norm 流(Y 流):负责 “稳”。它保留未归一化的状态,确保拥有一条干净的梯度高速公路。

2. Post-Norm 流(X 流):负责 “强”。它时刻保持归一化,确保特征表示不会发生坍塌或发散。


从图中也可以看出,把下一半遮住,它退化成 post-norm;把上一半遮住,它退化成 pre-norm。而在训练过程中,LayerNorm 的可学习权重可以调整两条流的大小关系。通过将支流上的 LayerNorm 调整为 0,可以退化成现有的 Pre-Norm、Post-Norm、Mix-LN 范式。


这一架构的核心在于高效的 “参数共享” 机制:双流路径并非独立存在,而是共享残差块(Attention/MLP)的权重。这意味着 SiameseNorm 几乎没有带来参数量与计算的增长。 为降低这种耦合结构的训练难度,架构中进一步引入了 Normalized Input(归一化输入) 与 Depth-wise Scaling(深度缩放),有效解决了参数共享的双流架构带来的优化对齐挑战。


3. 硬核实测:拯救 Post-Norm,数学任务暴涨 40%


在 1.3B 参数模型、100B/350B tokens、总计算成本超过 50,000 A100 GPU 小时的预训练实验中,SiameseNorm 展现了惊人的统治力:


直面公平对比的挑战:研究者首先在不同的学习率下对比了现有各种 Pre-Norm 和 Post-Norm/HybridNorm 变体的表现,发现两类范式的最优学习率存在显著差异,这揭示了一个长期被忽视的问题:超参(尤其学习率)的选择足以改变架构对比的结论。


换言之,过往许多研究因未能适配 Pre-Norm 的最优配置,实际上人为地压低了基线的性能天花板,从而制造了 “性能显著提升” 的假象。因此,一个公平的比较应该对不同方法分别做超参搜索,而这在大模型预训练中成本极高。在本篇论文中,研究者直接沿用了主流 Pre-Norm 的训练超参。这一策略旨在证明,SiameseNorm 无需依赖特定的参数微调,即可展现出超越基线的鲁棒性与性能。


无惧高学习率:实验表明,当学习率激进地提升至 2e-3 时,传统的 Post-Norm 及 HybridNorm 架构均出现了不可逆的训练发散(Divergence)。相比之下,SiameseNorm 展现了卓越的优化稳定性,不仅成功收敛,其训练 Loss 更是显著优于 Pre-Norm 基线,实现了高达 0.41 的 PPL 收益。


进一步的消融实验揭示了其内在的协同增益机制:在同等实验设置下,通过 Siamese 拓扑将 “易发散” 的 HybridNorm 流与 “基线级” 的 Pre-Norm 流(PPL 10.84)进行无任何辅助机制的直接耦合,模型取得了 10.68 的更优 PPL。这一结果有力地证明,Siamese 设计并非简单的堆砌,而是成功实现了两大范式的互补,从而突破了单一范式的性能天花板 。


通用基准的全面提升与推理能力的质变:SiameseNorm 不仅在通用语言理解任务上确立了领先地位,更在逻辑推理中实现了突破。在 HellaSwag、OpenBookQA、PIQA 等涵盖常识与知识问答的广泛基准测试中,该模型均取得了最佳成绩 。


尤为引人注目的是,在最依赖模型有效深度的算术任务(Arithmetic)上,Pre-Norm 的准确率仅为 28.1%,而 SiameseNorm 跃升至 39.6%,相对提升高达 40.9%。这一结果有力地证明,双流架构在保持通用能力全面领先的同时,成功唤醒了 Transformer 深层网络的潜能,显著修复了模型的链式推理能力。


实验结果一览,* 表示训练 loss 出现显著尖峰


4. 机制探究:各流的贡献分析


研究人员首先通过提取两条流中 LayerNorm 的可学习缩放参数,计算了它们对模块输入的相对贡献比例。实验结果显示,在绝大多数残差块中,两条流均保持了显著的权重占比。这表明网络并未出现单侧退化现象,而是有效地利用了来自两端的隐藏表征进行联合特征提取。



通过 Logit Lens 技术分析,研究人员发现了一个有趣的现象:在 SiameseNorm 的最终输出中,Post-Norm 流(X 流)占据了主导地位,其对最终预测的贡献度显著高于 Pre-Norm 流。


上述现象支持了一种直观的解释:Pre-Norm 流主要充当了 “训练脚手架” 的角色,负责在训练初期保障稳定性;而一旦模型步入正轨,具有更强特征表达能力的 Post-Norm 流的潜力便被释放出来,在形成最终决策时发挥主导作用。


结语


长期以来,为了 “跑得通”,我们不得不接受 Pre-Norm 对有效深度的牺牲;而 Post-Norm 虽然更具表达潜力,却又常因不稳定而难以进入大规模预训练的主流配置。


SiameseNorm 给出了一个优雅的答案:不再做选择题。它以近乎不增加成本的方式,把 Pre-Norm 的优化鲁棒性与 Post-Norm 的表征潜力统一在同一个框架内。对于追求更高学习率、更深网络、更强推理能力的大模型研发者而言,SiameseNorm 指明了一条清晰的路径:让 Transformer 走出 “浅层困境”,回归原始意义上的 “深度学习”。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我想到的是剧本杀!现在有些AI剧本杀,但感觉逻辑还是有点问题,如果SiameseNorm能让大模型更会推理,那以后就能和AI一起愉快地烧脑了!想想就刺激!

我觉得短期内比较难。SiameseNorm 的双流结构是一种trade-off,用增加少量复杂性来换取性能的提升。想要在单流架构上实现类似的效果,可能需要对Transformer的底层机制有更深刻的理解,并找到一种全新的范式。这需要突破性的研究。

这问题很有意思!我觉得 SiameseNorm 的双流结构本质上是一种“分而治之”的思想,将不同的优化目标分配到不同的流中,然后通过共享参数进行协同。这种思想应该可以借鉴到其他架构中,比如CNN,甚至GNN。收益的话,可能也能提高训练的稳定性和模型的表达能力。挑战的话,可能需要更精巧的设计,比如如何选择合适的norm方法,如何设计双流之间的交互方式等。

算术任务对深度推理要求高,SiameseNorm 在此提升显著,说明其在长程依赖和复杂逻辑的处理上可能更具优势。这种优势可能来源于Post-Norm流带来的更强的表征能力,以及Pre-Norm流提供的稳定梯度,两者协同作用,使得深层网络能够有效学习和推理。但是,具体任务还需要具体分析,不能一概而论。

单流架构的终极目标是“大道至简”,但实现起来往往非常困难。与其追求单流架构,不如关注如何进一步优化 SiameseNorm 的效率,例如减少参数共享带来的限制,或者探索更有效的双流交互方式。也许未来的 SiameseNorm 会变得更加简洁和高效。

理论上可行,但我持保守态度。SiameseNorm 在 Transformer 上work很大程度是因为 Pre/Post-Norm 本身在 Transformer 上的特性。如果强行应用到 CNN 或者其他模型上,可能需要对网络结构进行大的调整,反而得不偿失。不过,可以尝试用类似的思想去解决特定问题,例如在GAN中,可以分别用不同的loss来训练生成器和判别器。

从理论上来说,任何能达到相同效果的架构都有可能存在更简洁的版本。但是,想要在单流架构上同时实现Pre-Norm的稳定性和Post-Norm的表征能力,可能需要在Norm的方式、激活函数或者残差连接上进行创新性的设计,难度很大。也许未来会出现新的数学工具或者优化方法,能够简化这一过程。

双流结构我觉得很有潜力,但应用到其他架构需要谨慎考虑。收益方面,或许能解决一些长期存在的trade-off问题,例如某些架构在训练初期容易梯度消失,后期又容易过拟合。挑战在于,不同的架构可能需要不同的双流设计,不能简单照搬 SiameseNorm 的模式。例如CNN可能更适合用不同的卷积核大小来构建双流。

文章提到算术任务提升显著,个人认为大概率在其他需要深度推理的任务上也会有类似的提升。深度推理本质上依赖于模型对信息的层层抽象和传递,Pre-Norm的“深度失效”会阻碍推理能力的提升,而SiameseNorm通过双流结构缓解了这个问题,使得模型能够更好地利用深层网络的潜力。

我觉得不一定,要看具体任务的特点。算术任务的特点是步骤清晰、逻辑明确,SiameseNorm 可能更擅长处理这类任务。但对于那些步骤模糊、信息分散的任务,SiameseNorm 的优势可能不那么明显。另外,提升也可能不完全归功于 SiameseNorm 本身,而是因为它能够更好地适配算术任务的数据特点和训练方式。