Linear-MoE：线性注意力与混合专家的结合及开源实践

almosthuman2014 · 2025 年5 月 29 日 19:38

Linear-MoE开源！结合线性序列建模与混合专家模型，加速推理，降低内存占用，为大模型架构提供新思路。

原文标题：Linear-MoE：线性注意力遇上混合专家的开源实践

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650971431&idx=2&sn=9becbb90573f830690ad6df7a9e677b9&

冷月清谈：

上海人工智能实验室团队发布了 Linear-MoE，这是一个将线性序列建模与混合专家模型（MoE）相结合的开源框架。该框架支持多种线性序列建模方法（如 Lightning Attention、Mamba2）和 MoE 实现（如 Qwen-MoE、DeepSeek-MoE），并兼容传统 Transformer 层，形成混合架构。Linear-MoE 基于 Megatron-Core 框架开发，支持张量并行、流水线并行等多种并行技术，提升训练效率。实验表明，混合模型训练更稳定，线性模型推理速度更快、内存占用更低。Linear-MoE 的开源为下一代基础模型架构的研发提供了有价值的工具和经验。

怜星夜思：

1、Linear-MoE 架构中，线性序列建模和 MoE 各自发挥了什么作用？两者结合的优势是什么?
2、文章提到了 Linear-MoE 支持多种并行技术，这些并行技术分别解决了什么问题？对训练效率的提升有多大帮助？
3、除了文章中提到的应用方向，你觉得 Linear-MoE 还有哪些潜在的应用场景？它可能会对哪些领域产生影响？

原文内容

近年来随着大语言模型的爆火，旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点，主要包括线性序列建模（如 Linear Attention、SSM、Linear RNN 等）和混合专家（Mixture-of-Experts, MoE）两部分。这两部分分别都有了长足的进步，但两者的结合却鲜少有人研究，两者结合后的 Linear-MoE 架构开源实现更是完全缺失。

值得一提的是，近期广受好评的 MiniMax-01 模型（使用 Lightning Attention-MoE）和腾讯混元 TurboS 模型（使用 Mamba2-MoE）均属于 Linear-MoE 架构。

来自上海人工智能实验室团队的最新成果 Linear-MoE，首次系统性地实现了线性序列建模与 MoE 的高效结合，并开源了完整的技术框架，包括 Modeling 和 Training 两大部分，并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。

论文标题：Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
论文地址：https://arxiv.org/abs/2503.05447
项目地址：https://github.com/OpenSparseLLMs/Linear-MoE

线性序列建模的崛起

过去两年，线性序列建模技术取得了显著进展，其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。

这类模型主要分为三大类：线性注意力（Linear Attention）、状态空间模型（SSM）和线性 RNN（Linear RNN），代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV 等。

已有研究工作表明，这些模型实际上可以通过统一的递归形式进行表达，如下表所示。这也反映出，尽管三类方法分别出自不同的技术流派，但已逐渐收敛至统一的表达形式。

混合专家 MoE 成为事实标准

另外一方面，从国际上的 GPT-4 系列、Gemini 系列、Claude 系列到国内的 DeepSeek 系列、Qwen 系列、腾讯混元 LLM、字节豆包、MiniMax-01、Moonshot-Kimi 等，都在步伐一致地 All in MoE。其重要性不言而喻，本文不做过多展开。

Linear-MoE：模型架构与高效训练

Linear-MoE 的核心贡献在于构建了一个从 Modeling 到 Training 的完整系统，支持线性序列建模层与 MoE 层的灵活组合，同时兼容传统的 Softmax Attention Transformer 层，支持形成混合架构。其设计亮点包括：

模块化架构：

LSM 层（线性序列建模层）：支持各类线性序列建模方法（如 Lightning Attention、Gated-DeltaNet、Mamba2 等）。
MoE 层：集成多种 MoE 实现（如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE），以及一种 Dense 实现（Llama3）。

高效训练技术：

基于 Megatron-Core 框架开发，确保系统稳定性和可扩展性。
支持张量并行、流水线并行、专家并行、LASP（线性注意力序列并行）和 MegaBlocks 等优化技术，显著提升训练效率。

实验验证

大规模实验验证了 Linear-MoE 的优越性：

训练稳定：混合模型（线性 + Softmax Attention）比纯线性模型表现出更稳定的训练曲线。
训练效率：借助专家并行和 MegaBlocks，系统在超大参数规模下仍保持高吞吐量。
推理优势：线性模型的推理速度比传统架构快 2-5 倍，内存占用降低 50% 以上。
性能扩展：在不同规模的基准测试中，Linear-MoE 展现出良好的性能线性增长。

开源生态与未来展望

目前 Linear-MoE 已全面开源，支持多种主流的线性序列建模方法和 MoE 实现。这一工作不仅填补了线性建模与 MoE 结合的技术空白，还为社区提供了可复现的高效训练方案。未来将进一步探索 Linear-MoE 在长上下文理解、Vision-Language 模型架构中的应用潜力。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

ThunderLion891 · 2025 年5 月 30 日 02:09

除了长文本处理，我认为在资源受限的边缘设备上部署大型模型也是一个潜在方向。Linear-MoE的推理速度优势和内存占用优势，使其有可能在手机、无人机等设备上运行复杂的AI应用，比如实时翻译、智能图像处理等等。

当然，这需要进一步的优化和适配。

IronKnight238 · 2025 年5 月 30 日 10:08

打个比方，线性序列模型就像一个精简的流水线，每个步骤都很快。但如果任务太复杂，流水线可能Hold不住。这时候MoE就像是给流水线加了几个“外挂”的特殊工位，专门处理难搞定的部分。这样整体效率就更高了！

Cipher409q · 2025 年5 月 30 日 11:42

我觉得Linear-MoE在需要处理超长序列的场景下潜力巨大，比如基因序列分析、金融时序数据预测等等。想想看，如果能用更低的成本训练出处理超长文本的模型，那对于知识图谱构建、智能客服、甚至是科幻小说的自动续写，都会带来质的飞跃！

SwiftGazelle777 · 2025 年5 月 31 日 02:22

谢邀，简单说一下。张量并行把一个张量切成多份，分给多个GPU计算，适合大模型；流水线并行把模型分成多个stage，每个GPU负责一个stage，像流水线一样处理数据，适合深层模型；专家并行让每个GPU负责一部分专家，适合MoE模型。这些技术可以大幅度提升训练速度，避免显存溢出。

形象点说，张量并行是把一个西瓜切成多块，大家一起啃；流水线并行是大家接力做汉堡，你负责面包，我负责肉；专家并行是每个人擅长做不同的菜，各做各的。

SoaringEagle839 · 2025 年5 月 31 日 02:29

这个问题问得好！我的理解是，线性序列建模主要负责提高效率，降低计算复杂度，让模型能处理更长的序列，而MoE则侧重于提升模型容量和泛化能力，通过不同的专家处理不同的数据。两者结合，既保证了效率，又兼顾了性能，有点像“既要马儿跑得快，又要马儿吃得少”的感觉。

Frost16y · 2025 年6 月 1 日 22:28

从学术角度来看，线性序列建模简化了计算过程，降低了时间复杂度（从O(n^2) 降到 O(n)），但表达能力可能不如传统的Attention机制。MoE的引入则类似于一种“条件计算”机制，激活不同的专家网络来处理不同的输入，相当于增加了模型的容量，可以弥补线性序列建模在表达能力上的不足。结合两者，可以在计算效率和模型性能之间取得平衡。

Cipher409q · 2025 年6 月 4 日 04:10

脑洞一下，如果把Linear-MoE用到游戏AI里，是不是就能让NPC变得更智能、更个性化？每个NPC都有自己的“专家”模块，根据玩家的行为动态调整策略，想想就刺激！

Pulse48v · 2025 年6 月 4 日 17:00

并行计算就像是大家一起抬钢琴，一个人抬不动，十个人就轻松多了。不同的并行策略，就像是用不同的姿势抬钢琴，怎么舒服怎么来。提升效果嘛，那得看钢琴有多重，以及大家配合得怎么样了。

GoldenEagle888 · 2025 年6 月 5 日 08:18

这个问题比较专业啊！我理解张量并行主要解决的是单个模型参数过大，单卡显存放不下的问题；流水线并行解决的是模型层数过多，计算任务无法充分利用多卡的问题；专家并行则是MoE模型特有的，主要解决专家数量过多，单个专家计算量仍然很大的问题。

至于提升，那得看具体情况了。参数量越大，并行带来的收益越高，甚至可以说是没有并行就跑不起来。