DeepSeek 新研究:mHC架构解决大规模模型训练不稳定性难题

DeepSeek提出mHC,一种流形约束超连接架构,旨在解决大规模模型训练中超连接的不稳定性问题,同时保持性能增益。实验表明,mHC具有卓越的可扩展性。

原文标题:刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

原文作者:机器之心

冷月清谈:

DeepSeek发布了一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。该研究团队还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%,实验表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。

怜星夜思:

1、mHC架构通过约束连接矩阵在双拟随机矩阵流形上,解决了训练不稳定性问题。那么,这种约束方式是否会限制模型的表达能力,导致模型在某些特定任务上的性能下降?
2、文章提到mHC在基础设施层面进行了优化,包括算子融合、重计算和通信重叠。这些优化对于实际应用mHC架构有多重要?如果缺少这些优化,mHC的优势是否会大打折扣?
3、DeepSeek V3已经很强了,mHC架构的提出是否意味着DeepSeek在Transformer架构上有了新的突破方向?未来Transformer架构的演进方向会是怎样的?

原文内容

图片
机器之心编辑部

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。


该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。


简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。



  • 论文标题:mHC: Manifold-Constrained Hyper-Connections

  • 论文地址:https://arxiv.org/pdf/2512.24880


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。


传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。


近期,以字节跳动Seed团队提出的 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。


虽然这些方法带来了显著的性能提升,但但也带来了两个严重问题:


  • 数值不稳定性: 原始的 HC 中,连接矩阵是自由学习的,没有约束。这导致信号在经过多层传播后,数值会「爆炸」或「消失」,破坏了恒等映射的特性,模型越深越难训练。

  • 系统开销大: 通道变宽意味着显存读写 (I/O) 和通信成本成倍增加,也就是所谓的「显存墙」问题。


从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。


为了解决这些挑战,DeepSeek 的研究团队提出了 Manifold-Constrained Hyper-Connections (mHC,流形约束超连接)


这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。


它的核心目的是:在保留「加宽残差流」带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题


团队利用 Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的「凸组合」,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略


实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。


图 1:残差连接范式示意图。 本图对比了以下三种结构设计: (a) 标准残差连接(Residual Connection); (b) Hyper-Connections (HC); (c) 我们提出的 Manifold-Constrained Hyper-Connections (mHC)。与无约束的 HC 不同,mHC 专注于优化残差连接空间,通过将矩阵投影到受约束的流形上,以确保稳定性。


具体方法介绍


流形约束超连接 (mHC)


借鉴恒等映射(Identity Mapping)原则,mHC 的核心前提是将残差映射 图片 约束在一个特定的流形上。


虽然原始的恒等映射是通过强制执行 图片 来确保稳定性,但它能从根本上阻止残差流内部的信息交换,而这种交换对于最大化多流架构的潜力至关重要。


因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。


为此,他们的做法是将 图片 限制为双拟随机矩阵(Doubly Stochastic Matrix),即具有非负项且行和与列和均为 1 的矩阵。


形式上,令 图片 表示双拟随机矩阵的流形(也称为 Birkhoff 多胞形),再将  图片 约束在 图片 中,定义为:


图片


其中 1_n 表示全 1 的 n 维向量。


为什么选择双拟随机性?因为其具有多项有利于大规模训练的理论属性:


  • 范数保持:其谱范数有界且不超过 1(即 图片 ),这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题。

  • 复合封闭性:双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性。

  • 几何解释:该集合构成了 Birkhoff 多胞形,是排列矩阵集的凸包。这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用。


此外,该团队还对输入映射 图片 和输出映射 图片 施加了非负约束,以防止因正负系数复合导致的信号抵消。


参数化与流形投影


本节将详述 mHC 中各映射的计算过程。


给定第 l 层的输入隐藏矩阵 x_l,先将其展平为向量  图片 以保留完整的上下文信息。然后,按照 HC 的原始公式获取动态映射和静态映射:



最终的约束映射通过以下方式获得:



其中 图片 是 Sigmoid 函数。Sinkhorn-Knopp 算子首先通过指数操作确保所有元素为正,然后进行迭代规范化,交替缩放行和列使其和为 1。


DeepSeek 在实验中采用 t_max=20 次迭代。


高效基础设施设计


DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:


算子融合 (Kernel Fusion):


重新调整 RMSNorm 的顺序以提高效率,并采用混合精度策略。


开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销。


在单个算子中实现 Sinkhorn-Knopp 迭代及其自定义反向传播。


将 图片 和 图片 的应用与残差合并融合,显著减少了内存读写量。


重计算 (Recomputing):


为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。


通过推导得出最优重计算块大小 L_r^*,以最小化总内存占用。


DualPipe 中的通信重叠:


扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。


实验


实验设置


研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。


他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。


具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的  3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。



主要结果


图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。


研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。


表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。


表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH  和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。


规模扩展实验


图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。


为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。


此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。


更多详情请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我个人的看法是重计算(Recomputing)可能更关键。虽然算子融合也很重要,但它主要解决了计算效率的问题,而重计算直接缓解了n流设计带来的巨大内存压力,使得更大的模型和更长的序列成为可能。在大模型时代,内存往往是限制模型规模的关键因素,所以能够有效降低内存占用的技术更加重要。

这个问题很有意思!mHC的核心在于约束残差连接,避免梯度爆炸或消失。这种思路可以推广到其他网络结构,比如:

1. RNN/LSTM/GRU:循环神经网络中,可以通过约束循环连接的权重矩阵,保证信息在时间上的稳定传递,避免长期依赖问题。
2. GNN:图神经网络中,可以约束节点之间信息传递的权重,避免过度平滑问题,提高模型的区分能力。
3. 自编码器:在自编码器的瓶颈层,可以约束编码向量的流形,使其更具有表达能力,提高重构质量。

总的来说,mHC提供了一种通用的思路,即通过约束网络中的关键连接,保证训练的稳定性和模型的表达能力。关键在于找到合适的约束条件和流形空间。

我觉得CNN可能不太好搞,毕竟CNN的结构和Transformer差别太大了。Transformer里残差连接是标配,改起来可能更容易。CNN里残差连接虽然也有,但不是必须的,而且卷积操作本身就带有一些约束,再加个mHC,说不定会适得其反。

楼上说的有道理!我补充一点,mHC的核心在于维持信号的“能量守恒”,避免梯度爆炸或消失。这在RNN这类对梯度特别敏感的网络中可能更有用。不过,引入流形约束可能会增加模型设计的复杂性,需要权衡性能提升和实现难度,说不定以后会有自动寻找最佳流形约束的算法出现。

我想到的是知识蒸馏!可以用一个训练好的小模型来指导大模型的训练,这样可以帮助大模型更快更好地学习,降低训练难度和不稳定性。感觉这种方法也比较灵活,可以结合不同的蒸馏策略。

这个问题很有意思!将流形约束应用到其他领域确实有潜力。在优化算法中,我们可以考虑将搜索空间限制在特定的流形上,避免陷入局部最优。在控制系统中,可以设计流形约束控制器,提高系统的鲁棒性和抗干扰能力。当然,具体实现还需要根据不同领域的特点进行调整。

这个问题很有意思!除了双拟随机矩阵,还可以考虑使用正交矩阵或者低秩矩阵来进行约束。正交矩阵可以保证信息在传播过程中的能量不变性,而低秩矩阵则可以降低模型的参数量,提高训练效率。当然,具体效果还需要实验验证。

我觉得进一步优化的空间还是很大的。比如,可以尝试更激进的量化技术,降低模型精度。另外,可以探索一些新的并行计算范式,例如张量分解并行或者混合精度并行。当然,这些都需要对硬件有深入的了解。

理论上可行,但实际效果可能取决于具体的实现方式。ViT对计算效率要求很高,如果引入mHC导致计算量大幅增加,那就得不偿失了。而且,ViT在优化方面已经有很多工作了,mHC需要找到一个合适的切入点,才能在现有基础上有所突破。举个例子,可以考虑将mHC应用到ViT的MLP层中,看看是否能够提升模型的表达能力。

我猜测在ViT上应用mHC可能会遇到一些挑战。ViT的计算量主要集中在Attention机制上,mHC主要优化的是残差连接部分。如果直接将mHC应用到ViT上,可能收益不会太大,需要对ViT的结构进行一些调整,例如增加残差连接的宽度,或者将mHC应用到Attention模块中。不过现在已经卷到AGI了,ViT这种“小”模型,感觉关注度不会太高了。

问:mHC架构中,Sinkhorn-Knopp算法起到了至关重要的作用,它将残差连接矩阵投影到Birkhoff多胞形上。那么,除了Birkhoff多胞形,是否可以考虑其他的流形来约束连接矩阵,从而获得不同的模型特性或性能?

答:这位朋友的想法很棒!约束到其他流形确实有想象空间。我感觉可以考虑拓扑流形,这样的话,模型可能对输入数据中的小的扰动更加鲁棒,毕竟拓扑学关注的就是连续形变下保持不变的性质嘛。比如,我们可以使用持续同调等拓扑数据分析的工具来设计这个流形,让模型能更好地理解和处理数据中的噪声。

emm…歪个楼,有没有可能不稳定才是AGI的未来?(手动狗头)当然,认真地说,我觉得可以从网络结构上入手,比如引入skip connection,Highway Network等,让信息能够更容易地在网络中传播,从而减轻对残差连接的依赖。

从控制信号传播的角度来看,可以考虑引入动态缩放因子,根据每一层的激活值动态调整残差连接的权重,避免信号爆炸或消失。另外,我觉得batch normalization这类技术,本质上也是为了稳定训练过程中的数值分布,可以借鉴其思想。

楼上说的都有道理。不过我觉得这三种优化策略是相辅相成的,缺一不可。算子融合优化了计算效率,重计算减少了内存占用,通信重叠提高了通信效率。只有将这三种策略结合起来,才能充分发挥 mHC 的潜力。就好比一台汽车,发动机、底盘和轮胎都很重要,少了哪个都跑不起来。

个人认为,算子融合的贡献应该最大。因为在大规模模型训练中,频繁的kernel launch和memory access是性能瓶颈。算子融合将多个操作合并成一个,减少了kernel launch的开销,并通过减少中间变量的读写优化了memory bandwidth,对整体性能的提升是立竿见影的。

可以从信息论的角度思考一下。约束的本质是减少了参数空间,降低了模型复杂度,避免过拟合。如果特定任务需要极高的复杂度才能拟合,那mHC可能就不太适合。但对于大多数任务,mHC通过提高训练效率和泛化能力,反而能带来更好的效果

我觉得这个问题很有深度!约束肯定是有代价的,就像给演员戴上镣铐跳舞,虽然增加了难度,但也可能激发TA的潜力。关键在于这个“镣铐”是否合适。mHC选择的约束方式是“双拟随机矩阵”,作者认为这种方式既能保证稳定性,又能促进信息混合。但具体效果如何,还得看实际应用中是否真的work。

楼上两位老哥解释的都很到位,我再补充一个细节。

DualPipe 解决的根本问题是 GPU 的利用率。在分布式训练中,GPU 经常会因为等待数据而空闲。DualPipe 通过通信和计算重叠,让 GPU 尽可能地保持忙碌状态,从而提高了整体的训练速度。

可以想象一下,如果把 GPU 比作一个餐厅的厨师,数据就是食材。如果厨师每次都要等服务员把食材送到才能开始做菜,那效率肯定很低。DualPipe 的作用就是让服务员提前把食材准备好,厨师可以不停地做菜,这样餐厅的效率就提高了。

我觉得通用性是有的,但需要根据具体的模型和硬件环境进行调整。比如,算子融合需要考虑算子的兼容性,重计算需要权衡计算成本和内存占用。而且,不同的硬件平台对这些优化策略的支持程度也不同。所以,在应用这些策略时,需要进行充分的实验和调优。