Linear-MoE:线性注意力与混合专家的结合及开源实践

Linear-MoE开源!结合线性序列建模与混合专家模型,加速推理,降低内存占用,为大模型架构提供新思路。

原文标题:Linear-MoE:线性注意力遇上混合专家的开源实践

原文作者:机器之心

冷月清谈:

上海人工智能实验室团队发布了 Linear-MoE,这是一个将线性序列建模与混合专家模型(MoE)相结合的开源框架。该框架支持多种线性序列建模方法(如 Lightning Attention、Mamba2)和 MoE 实现(如 Qwen-MoE、DeepSeek-MoE),并兼容传统 Transformer 层,形成混合架构。Linear-MoE 基于 Megatron-Core 框架开发,支持张量并行、流水线并行等多种并行技术,提升训练效率。实验表明,混合模型训练更稳定,线性模型推理速度更快、内存占用更低。Linear-MoE 的开源为下一代基础模型架构的研发提供了有价值的工具和经验。

怜星夜思:

1、Linear-MoE 架构中,线性序列建模和 MoE 各自发挥了什么作用?两者结合的优势是什么?
2、文章提到了 Linear-MoE 支持多种并行技术,这些并行技术分别解决了什么问题?对训练效率的提升有多大帮助?
3、除了文章中提到的应用方向,你觉得 Linear-MoE 还有哪些潜在的应用场景?它可能会对哪些领域产生影响?

原文内容


近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究,两者结合后的 Linear-MoE 架构开源实现更是完全缺失。


值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。


来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。



  • 论文标题:Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts

  • 论文地址:https://arxiv.org/abs/2503.05447

  • 项目地址:https://github.com/OpenSparseLLMs/Linear-MoE



    线性序列建模的崛起


    过去两年,线性序列建模技术取得了显著进展,其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。


    这类模型主要分为三大类:线性注意力(Linear Attention)、状态空间模型(SSM)和线性 RNN(Linear RNN),代表性工作包括 Lightning Attention、GLA、Mamba2、RWKV 等。


    已有研究工作表明,这些模型实际上可以通过统一的递归形式进行表达,如下表所示。这也反映出,尽管三类方法分别出自不同的技术流派,但已逐渐收敛至统一的表达形式。



    混合专家 MoE 成为事实标准


    另外一方面,从国际上的 GPT-4 系列、Gemini 系列、Claude 系列到国内的 DeepSeek 系列、Qwen 系列、腾讯混元 LLM、字节豆包、MiniMax-01、Moonshot-Kimi 等,都在步伐一致地 All in MoE。其重要性不言而喻,本文不做过多展开。


    Linear-MoE:模型架构与高效训练


    Linear-MoE 的核心贡献在于构建了一个从 Modeling 到 Training 的完整系统,支持线性序列建模层与 MoE 层的灵活组合,同时兼容传统的 Softmax Attention Transformer 层,支持形成混合架构。其设计亮点包括:


    • 模块化架构:

      • LSM 层(线性序列建模层):支持各类线性序列建模方法(如 Lightning Attention、Gated-DeltaNet、Mamba2 等)。
      • MoE 层:集成多种 MoE 实现(如 Qwen-MoE、DeepSeek-MoE、Mixtral-MoE),以及一种 Dense 实现(Llama3)。

    • 高效训练技术:

      • 基于 Megatron-Core 框架开发,确保系统稳定性和可扩展性。
      • 支持张量并行、流水线并行、专家并行、LASP(线性注意力序列并行)和 MegaBlocks 等优化技术,显著提升训练效率。



    实验验证


    大规模实验验证了 Linear-MoE 的优越性:


    • 训练稳定:混合模型(线性 + Softmax Attention)比纯线性模型表现出更稳定的训练曲线。
    • 训练效率:借助专家并行和 MegaBlocks,系统在超大参数规模下仍保持高吞吐量。
    • 推理优势:线性模型的推理速度比传统架构快 2-5 倍,内存占用降低 50% 以上。
    • 性能扩展:在不同规模的基准测试中,Linear-MoE 展现出良好的性能线性增长。

    开源生态与未来展望


    目前 Linear-MoE 已全面开源,支持多种主流的线性序列建模方法和 MoE 实现。这一工作不仅填补了线性建模与 MoE 结合的技术空白,还为社区提供了可复现的高效训练方案。未来将进一步探索 Linear-MoE 在长上下文理解、Vision-Language 模型架构中的应用潜力。


    © THE END 

    转载请联系本公众号获得授权

    投稿或寻求报道:liyazhou@jiqizhixin.com

    除了长文本处理,我认为在资源受限的边缘设备上部署大型模型也是一个潜在方向。Linear-MoE的推理速度优势和内存占用优势,使其有可能在手机、无人机等设备上运行复杂的AI应用,比如实时翻译、智能图像处理等等。

    当然,这需要进一步的优化和适配。

    打个比方,线性序列模型就像一个精简的流水线,每个步骤都很快。但如果任务太复杂,流水线可能Hold不住。这时候MoE就像是给流水线加了几个“外挂”的特殊工位,专门处理难搞定的部分。这样整体效率就更高了!

    我觉得Linear-MoE在需要处理超长序列的场景下潜力巨大,比如基因序列分析、金融时序数据预测等等。想想看,如果能用更低的成本训练出处理超长文本的模型,那对于知识图谱构建、智能客服、甚至是科幻小说的自动续写,都会带来质的飞跃!

    谢邀,简单说一下。张量并行把一个张量切成多份,分给多个GPU计算,适合大模型;流水线并行把模型分成多个stage,每个GPU负责一个stage,像流水线一样处理数据,适合深层模型;专家并行让每个GPU负责一部分专家,适合MoE模型。这些技术可以大幅度提升训练速度,避免显存溢出。

    形象点说,张量并行是把一个西瓜切成多块,大家一起啃;流水线并行是大家接力做汉堡,你负责面包,我负责肉;专家并行是每个人擅长做不同的菜,各做各的。

    这个问题问得好!我的理解是,线性序列建模主要负责提高效率,降低计算复杂度,让模型能处理更长的序列,而MoE则侧重于提升模型容量和泛化能力,通过不同的专家处理不同的数据。两者结合,既保证了效率,又兼顾了性能,有点像“既要马儿跑得快,又要马儿吃得少”的感觉。

    从学术角度来看,线性序列建模简化了计算过程,降低了时间复杂度(从O(n^2) 降到 O(n)),但表达能力可能不如传统的Attention机制。MoE的引入则类似于一种“条件计算”机制,激活不同的专家网络来处理不同的输入,相当于增加了模型的容量,可以弥补线性序列建模在表达能力上的不足。结合两者,可以在计算效率和模型性能之间取得平衡。

    脑洞一下,如果把Linear-MoE用到游戏AI里,是不是就能让NPC变得更智能、更个性化?每个NPC都有自己的“专家”模块,根据玩家的行为动态调整策略,想想就刺激!

    并行计算就像是大家一起抬钢琴,一个人抬不动,十个人就轻松多了。不同的并行策略,就像是用不同的姿势抬钢琴,怎么舒服怎么来。提升效果嘛,那得看钢琴有多重,以及大家配合得怎么样了。

    这个问题比较专业啊!我理解张量并行主要解决的是单个模型参数过大,单卡显存放不下的问题;流水线并行解决的是模型层数过多,计算任务无法充分利用多卡的问题;专家并行则是MoE模型特有的,主要解决专家数量过多,单个专家计算量仍然很大的问题。

    至于提升,那得看具体情况了。参数量越大,并行带来的收益越高,甚至可以说是没有并行就跑不起来。