月之暗面开源MoE模型Moonlight,训练效率提升,性能超越DeepSeek?

月之暗面开源MoE模型Moonlight,Muon优化器使其训练效率翻倍,性能超越竞品,引发社区热议。

原文标题:截胡DeepSeek开源周?Kimi深夜首发开源模型,同计算量下好过DeepSeek?

原文作者:AI前线

冷月清谈:

月之暗面最新开源了MoE模型Moonlight,并发布了相关论文《Muon is Scalable for LLM Training》。该模型激活参数仅需3B,却在5.7T token的数据集上训练,并在同等计算量下实现了更优的性能。Muon优化器的改进是其关键,通过深度改造和参数级别更新尺度调整,Muon的训练效率是AdamW的两倍,且模型性能相当。此外,基于ZeRO-1优化的Muon分布式版本也提升了内存效率并降低了通信开销。Scaling Law研究进一步表明,Muon训练所需的FLOP仅约为AdamW的52%。此次开源正值DeepSeek预告开源周之际,引发了社区关于两者竞争的讨论。目前,Moonlight模型的代码、完整模型系列以及论文均已公开发布。

怜星夜思:

1、Muon优化器相比AdamW有哪些具体的优势?除了效率提升,在模型的泛化能力、稳定性等方面有什么提升?
2、Moonlight模型与DeepSeek即将开源的模型相比,有哪些潜在的优势和劣势?
3、MoE模型的未来发展方向是什么?它在哪些领域有更大的应用潜力?

原文内容

左右滑动查看更多图片

今日凌晨,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并开源了MoE模型Moonlight( MIT 许可证),模型激活参数仅需3B。
 
论文显示,月之暗面通过深度改造Muon优化器并将其运用于实际训练,证明了Muon在更大规模训练中的有效性,是AdamW训练效率的2倍且模型性能相当。Moonlight 3B/16B MoE 模型使用 Muon 在 5.7T token上进行训练,“以更少的 FLOP 和更好的性能推进帕累托前沿。”月之暗面此次贡献主要在于:
 
[转圈]Muon 有效扩展分析:月之暗面发现权重衰减在Muon的可扩展性中起着至关重要的作用。此外,团队提出通过参数级别更新尺度调整,保持不同矩阵和非矩阵参数之间的一致更新均方根(RMS)。这种调整显著提高了训练稳定性。
[转圈]高效分布式实现:团队开发了一个基于ZeRO-1优化的Muon分布式版本,实现了最佳内存效率并降低了通信开销,同时保持算法的数学特性。
[转圈]Scaling Law验证:月之暗面进行了Scaling Law研究,比较了Muon与AdamW的性能,结果显示Muon具有更优的表现。根据Scaling Law结果,Muon在性能上与AdamW训练的对比模型相当,但训练所需FLOP仅约为AdamW的52%。
 
对于月之暗面深夜发布开源模型的行为,有网友认为是在截胡DeepSeek。2月21日午间,DeepSeek团队在X官方账号发布消息,下周将陆续完全开源5个代码库,为“开源周”(OpenSourceWeek)预热,以完全透明的方式分享研究进展。

目前,Kimi已经不在App Store免费,前三名为DeepSeek、腾讯元宝和豆包。
 
代码和实现:https://github.com/MoonshotAI/Moonlight
完整模型系列:https://huggingface.co/moonshotai
论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

我觉得Moonlight的优势在于它的效率,Muon优化器可以显著提升训练效率,这在实际应用中很重要。DeepSeek的模型还没开源,具体的优势和劣势不好说,可能需要等开源后进行更详细的比较,比如模型大小、数据集、评测指标等等。

我觉得Muon优化器最牛的地方在于它在分布式训练中的优化,基于ZeRO-1的优化策略可以有效降低通信开销和内存占用,这对于大规模模型训练来说非常重要。效率提升和稳定性提升都是非常实际的优势,至于泛化能力,还需要更多实验数据来验证,我们可以期待一下后续的研究。

现在DeepSeek的模型还没开源,不好直接比较,不过从月之暗面放出的数据来看,Moonlight在同等计算量下性能更好,而且Muon优化器看起来也挺有潜力的。至于劣势,可能要等DeepSeek开源后才能看出具体的差异。

我比较关注MoE模型在边缘计算和移动设备上的应用,毕竟现在的MoE模型都太大了,很难在资源受限的设备上运行。如果能解决这个问题,MoE模型的应用范围将会大大拓展。

关于Muon优化器相比AdamW的优势,论文中提到了效率提升和性能相当,也就是用更少的计算资源达到类似的性能水平。至于泛化能力和稳定性,论文里提到了“参数级别更新尺度调整显著提高了训练稳定性”,但泛化能力需要更多实验数据来支撑,可以关注一下后续的评测或者其他研究者的复现结果。

虽然现在还不好下定论,但我感觉月之暗面选择在这个时间点开源,可能就是想抢占先机,毕竟DeepSeek的“开源周”还没开始。当然,最终还是要看模型的实际表现,以及社区的反馈。

Muon优化器的一个主要优势在于它的可扩展性,这对于训练大型语言模型至关重要。效率的提升意味着可以用更少的资源训练更大的模型,或者以更快的速度训练现有模型。至于稳定性,论文中提到的参数级别更新尺度调整确实是一个亮点,这有助于避免训练过程中出现梯度爆炸或消失等问题,从而提高训练的稳定性。关于泛化能力,目前的信息还不够充分,需要进一步的研究来验证。

我觉得MoE模型的未来发展方向可能在于更高效的路由算法和更灵活的专家组合方式,这样可以更好地利用计算资源,提高模型的性能。至于应用潜力,我觉得在自然语言处理、计算机视觉、推荐系统等领域都有很大的发展空间。

MoE模型的一个重要发展方向是如何降低其在推理阶段的延迟,毕竟多个专家的调用会增加计算时间。另外,如何更好地训练MoE模型,避免出现专家崩溃或负载不均衡等问题,也是一个重要的研究方向。至于应用潜力,我认为在需要处理复杂多模态数据的领域,MoE模型有很大的优势。