Mamba-Transformer融合架构:腾讯混元、英伟达Nemotron-H的新选择

腾讯混元、英伟达Nemotron-H纷纷采用Mamba-Transformer混合架构,该架构融合两者优势,显著提升模型速度与效率,或成AI模型新趋势。

原文标题:腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

原文作者:机器之心

冷月清谈:

本文探讨了Mamba-Transformer混合架构在AI大模型中的崛起趋势,并分析腾讯混元T1、英伟达Nemotron-H等模型如何利用该架构提升性能、降低成本。Mamba架构以其处理长序列数据的优势,与Transformer架构的强大性能相结合,通过层级或序列级混合,在保证准确度的同时,显著提升推理速度和效率。此外,英伟达的STORM和滑铁卢大学的Vamba模型也展示了该架构在多模态和长视频理解领域的潜力。文章指出,Mamba-Transformer混合架构通过优化计算复杂度、减少内存占用,为AI大模型的更广泛应用提供了新的可能性。

怜星夜思:

1、Mamba-Transformer混合架构在实际应用中,除了文中提到的优势,还可能带来哪些潜在的问题或挑战?
2、文章中提到了英伟达的Nemotron-H在MMLU-Pro基准测试中表现出色,速度是同体量竞品模型的三倍。那么,除了MMLU-Pro,还有哪些benchmark可以用来更全面地评估Mamba-Transformer混合架构的性能?
3、从文章来看,Mamba-Transformer混合架构主要优势在于提升效率和处理长文本。那么,未来这种架构还可能在哪些领域发挥更大的作用?

原文内容

机器之心报道

编辑:Panda、张倩


在过去的一两年中,Transformer 架构不断面临来自新兴架构的挑战。


在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。


上周五,腾讯宣布推出自研深度思考模型「混元 T1」正式版,这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势,很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。



与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H,其速度是同体量竞品模型的三倍。



速度的提升与成本的降低,是 AI 大模型迈向更广泛应用与普及的必经之路。如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。


恰好,滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)最近发帖,盘点了一下最近的几款 Mamba-Transformer 模型。我们对他的盘点进行了整理,希望能带给大家一些启发。



Mamba-Transformer 简介


Mamba-Transformer 混合架构,顾名思义,就是将 Mamba 与 Transformer 架构组合到一起。


Transformer 想必大家已经非常熟悉了,简单来说:Transformer 架构是一种以自注意力机制为核心的深度学习模型,自 2017 年由 Ashish Vaswani 等人提出以来,便革新了传统序列模型的设计理念。其关键在于多头自注意力机制能够在全局范围内捕捉输入序列中各元素之间的复杂依赖关系,同时通过位置编码保留序列位置信息,加上残差连接和层归一化等技术确保了高效的并行计算和稳定的训练过程。这种架构不仅显著提升了机器翻译、文本生成等自然语言处理任务的性能,也为后续 BERT、GPT 等预训练模型的快速发展奠定了坚实基础。


经典 Transformer 架构


而 Mamba 则是一种状态空间模型(SSM)—— 该架构的一大显著优势是能高效地捕获序列数据中的复杂依赖关系,并由此成为 Transformer 的一大强劲对手。


经典的状态空间模型可被视为循环神经网络(RNN)和卷积神经网络的(CNN 融合模型。它们可使用循环或卷积运算进行高效地计算,从而让计算开销随序列长度而线性或近线性地变化,由此大幅降低计算成本。


作为 SSM 最成功的变体架构之一,Mamba 的建模能力已经可以比肩 Transformer,同时还能维持随序列长度的线性可扩展性。



Mamba 首先引入了一个简单却有效的选择机制,可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。然后,Mamba 还包含一种硬件感知型算法,可使用扫描(scan)而非卷积来循环地计算模型,这在 A100 GPU 上能让计算速度提升 3 倍。


凭借强大的建模复杂长序列数据的能力和近乎线性的可扩展性,Mamba 已经崛起成为一种重要的基础模型架构。关于 Mamba 架构的更详细介绍可参阅机器之心文章以及。


而要将 Mamba 与 Transformer 混合到一起,常见的方式有两种:层级混合与序列级混合。如下图所示,当前的 Mamba-Transformer 混合架构模型会根据自身需要选择不同的混合策略。



Nemotron-H


3 月 21 日,英伟达推出了 Nemotron-H 系列的 Mamba-Transformer 混合架构模型,其中包含多种规模的多种模型,比如 Nemotron-H-8B-Base、Nemotron-H-8B-Instruct、Nemotron-H-8B-VLM、Nemotron-H-47B-Base、 Nemotron-H-56B-Base、Nemotron-H-56B-VLM。其中 47B 版本可以在单台商品级 NVIDIA RTX 5090 GPU 上以 FP4 精度支持 100 万 token 长度上下文的推理。


实际上,Nemotron-H 就是英伟达近期发布的用于物理 AI 的强大 VLM 模型 Cosmos-Reason 1 背后的骨干网络。


据介绍,通过采用 Mamba-Transformer 混合架构,相比于 SOTA 的开源纯 Transformer 模型,Nemotron-H 在保证了相当乃至更好的准确度的同时,可以提供远远更快的推理速度(高达 3 倍)。下面两图展示了在 MMLU-Pro 基准上,Nemotron-H 与同等数量级参数的开源 Transformer 模型的准确度与吞吐量对比。可以看到,Nemotron-H 具有非常明显的效率优势。




此外,英伟达也公布了 Nemotron-H 的其它一些细节,包括 Nemotron-H-56B-Base 的训练使用了 6144 台 H100 GPU 和 20 万亿 token,训练精度为 FP8(是 FP8 预训练的一次大规模展示);Nemotron-H-47B-Base 是 Nemotron-H-56B-Base 的蒸馏版 —— 蒸馏精度为 FP8 并使用了 630 亿训练 token。


Hunyuan-Turbo-S 和 Hunyuan-T1


3 月 21 日同一天,腾讯也宣布推出了深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。而在此之前,他们已于 3 月初发布了混元 Turbo S 基础模型以及之后的混元 T1-preview 模型。


这些模型都采用了 Mamba-Transformer 混合架构,其中 T1 更是一款使用了大规模强化学习的强推理模型,在数学、逻辑推理、科学和代码等理科难题具有非常明显的优势。当然,Mamba-Transformer 高效率的优势也在这里有非常明显的体现。



比如在大语言模型评估增强数据集 MMLU-PRO 上,混元 T1 取得了 87.2 分,仅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。


据介绍,混元 T1 正式版沿用了混元 Turbo S 的创新架构,采用 Hybrid-Mamba-Transformer 融合模式。这是工业界首次将混合 Mamba 架构无损应用于超大型推理模型。

 

这一架构有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度达到最快 80 token/s。


图片
 混元 T1 与 DeepSeek-R1 的吐字速度对比

混元 T1 在超长文本推理领域也展现出独特优势。基于出色的长文捕捉能力,混元 T1 能有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。同时,混合 Mamba 架构针对长序列处理进行了专项优化,通过高效的计算方式,在确保长文本信息捕捉能力的同时大幅降低资源消耗,在相近的激活参数量下,实现了解码速度提升 2 倍。
 
在体现推理模型基础能力的常见 benchmark 上,如大语言模型评估增强数据集 MMLU-PRO 中,混元 T1 取得 87.2 分,仅次于 o1。在 CEval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。
 
STORM

STORM 同样来自英伟达,是一款基于视频的多模态大型语言模型(Video-LLM)。相关研究论文已于本月初发布。


  • 论文标题:Token-Efficient Long Video Understanding for Multimodal LLMs
  • 论文地址:https://arxiv.org/pdf/2503.04130

具体技术上,STORM 在图像编码器和 LLM 之间引入了一种新的时间编码器,从而将视觉和语言表征整合到了一起。该架构在工作流程早期引入了时间动态,从而可以显著提升 Video-LLM 的时间推理能力,同时还能大幅提升的下游计算效率。该团队表示:「通过将时间信息直接注入视觉 token,可以减轻 LLM 的时间推理负担,使其能够专注于更高级的语言任务。」


架构上,他们采用了 Mamba 状态空间模型作为时间层的核心,这既能高效处理长视频,同时也可增强对经过扩展的时间上下文的泛化。这个时间层对图像和视频输入的处理方式不同 —— 对于图像,它的作用是空间扫描器,通过结合全局空间上下文来增强 token;对于视频,它同时执行空间和时间扫描,以捕获全面的时空信息。

Mamba 层的主要优势在于它能够将历史信息压缩为状态表征。由于视频输入中的连续帧通常包含冗余信息,因此时间编码器可以有效地处理和传播整个视频序列的时间信息。这样一来,生成的视觉 token 本身就封装了时间历史,并有效地总结了视频的时间动态。

有了这一特性,LLM 处理所需的视觉 token 就更少了,同时还能保留关键信息。

他们的实验表明,新提出的方法效果很好,并且可以成功扩展到长上下文视频理解模型,而不会影响训练效率。


Vamba

Vamba 则是一个用于长视频理解的 Mamba-Transformer 混合模型,来自前文中提到的陈文虎团队。

我们知道,由于因果自注意力运算的二次复杂度(会导致训练和推理的计算成本很高),当前领先的 Transformer LMM 其实很难处理长视频,尤其是当视频长度长达 1 个小时以上时。现在虽有一些 token 压缩方法可以减少视频 token 的数量,但往往会丢失一些信息,并且处理极长序列的效率很低。

于是 Vamba 团队探索了另一个方向:不对视频 token 进行压缩,而是使用另一种模型架构来提高在训练和推理预填充阶段处理视频 token 的效率。

VAMBA 由此诞生!这款混合 Mamba-Transformer 模型可以对长达 1 个小时的视频实现高效的理解。该团队说明了设计这一架构的关键见解:可以设计高效的模块来近似基于 Transformer 的 LMM 中文本和视频 token 的因果自注意力运算。


  • 论文标题:VAMBA: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
  • 论文地址:https://arxiv.org/pdf/2503.11579
  • 项目地址:https://tiger-ai-lab.github.io/Vamba/

具体来说,他们提出: 

1、利用交叉注意力机制根据视频 token 更新文本 token,由于文本 token 的长度较短,这种方法成本较低;
2、采用 Mamba-2 以线性复杂度处理大量视频 token。


假设输入序列为 M + N 个 token,其中 M 是视频 token 的数量,N 是文本 token 的数量,该团队发现在许多长视频任务(M ≫ N)上,M 至少是 N 的 100 倍。

而该团队提出的新模型可以将训练 / 预填充计算复杂度从 O (d (M + N)²) 降低到 O (dMN + d²M),其中 d 是隐藏维度。不过该团队也指出,在实践中,由于目前 Mamba 的硬件优化不足,这种理论上的改进可能无法完全实现。

尽管如此,他们仍然观察到,在长视频输入的训练和推理过程中,GPU 内存使用量和 FLOP / 运行时间减少了 50% 以上。

VAMBA 可以使用 8 台 A100 GPU 进行有效训练,而 LongVU 和 LongLLaVA 分别需要 64 和 24 台 GPU 进行训练。通过进行两阶段训练,新提出的 VAMBA 在高难度的小时级视频理解基准 LVBench 上比之前最高效的视频 LMM 提高了 4.3%。在其他长视频理解数据集上,如 Video-MME、MLVU 和 LongVideoBench ,VAMBA 也表现出色。


看起来,Mamba-Transformer 混合架构已经开始在推理以及多模态任务中展露头角。通过合理的设计,Transformer 强大的性能可以与 Mamba 在长上下文和效率上的优势整合到一起,为大型语言模型(LLM)和大型多模态模型(LMM)带来新的可能性。

机器之心也曾报道过其它一些 Mamba-Transformer 混合架构模型,详情访问以下链接:


参考内容
https://x.com/WenhuChen/status/1903656455036715311
https://research.nvidia.com/labs/adlr/nemotronh/

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

我认为Mamba-Transformer混合架构未来可能在以下领域发挥更大的作用:

1. 医疗健康:处理电子病历、基因组数据等长序列数据,辅助疾病诊断、药物研发等。
2. 金融:分析金融市场数据、欺诈检测等,需要处理大量时序数据。
3. 自动驾驶:处理传感器数据、预测车辆行驶轨迹等,需要实时处理长序列数据。
4. 科学研究:模拟气候变化、蛋白质折叠等复杂系统,需要处理大规模数据。
5. 教育:个性化学习、智能辅导等,需要理解学生的学习过程和知识掌握情况。

总的来说,任何需要处理长序列数据、对效率有较高要求的领域,都有可能受益于Mamba-Transformer混合架构。

我觉得在游戏领域也很有潜力!想象一下,用这种架构来生成更智能的NPC,让它们的行为更自然,更难预测。或者用它来生成更复杂的游戏世界,让玩家有更沉浸式的体验。

个人认为,Mamba-Transformer混合架构虽然前景可观,但实际应用中可能面临以下挑战:

1. 兼容性与优化难度:两种架构的融合并非简单叠加,需要精细的调校才能发挥最佳效果。不同层级或序列级的混合策略,参数配比,以及针对特定硬件的优化,都可能增加开发和调试的复杂度。
2. 训练数据需求:混合模型可能需要比单一架构更大的数据集才能充分训练,尤其是在处理多模态数据时。数据的质量、多样性和标注成本都是需要考虑的问题。
3. 理论理解的缺乏:虽然实验结果表明混合架构有效,但对其深层机制和泛化能力的理论理解可能还不够深入,这会限制我们对模型行为的预测和控制。
4. 硬件支持:尽管Mamba在设计上考虑了硬件感知,但目前的硬件(尤其是GPU)对Mamba的优化仍然不足,这可能会限制其性能的充分发挥。

要更全面地评估Mamba-Transformer混合架构的性能,除了MMLU-Pro之外,还可以考虑以下benchmark:

1. 长文本理解能力:由于Mamba在处理长序列方面具有优势,因此可以使用诸如Long Range Arena (LRA) 等benchmark来评估模型处理长文本依赖关系的能力。
2. 多模态任务:如果模型设计用于多模态任务,可以考虑使用诸如Visual Question Answering (VQA)、Image Captioning等benchmark来评估其在视觉和语言理解方面的性能。
3. 生成能力:对于文本生成任务,可以使用诸如ROUGE、BLEU、METEOR等指标来评估生成文本的质量和流畅度。此外,也可以使用人类评估来更主观地评估生成文本的质量。
4. 推理能力:除了MMLU-Pro,还可以使用CEval、AIME、Zebra Logic等benchmark来评估模型在常识推理、数学推理和逻辑推理等方面的能力。
5. 效率:除了吞吐量,还可以关注模型的内存占用、能耗等指标,以更全面地评估其效率。

除了文章里提到的benchmark,我觉得还可以关注一下在真实场景下的表现。比如,用混合架构的模型来做客服机器人,看看能不能更好地理解用户意图,更快地给出答案。或者用它来生成营销文案,看看能不能更吸引人。

嘿嘿,说到benchmark,我来抖个机灵!不如试试让模型写高考作文?看看它能不能写出让阅卷老师眼前一亮的文章,如果能拿高分,那绝对说明它的理解能力和生成能力都非常牛逼!

谢邀,我觉得主要挑战在于如何找到两种架构的最佳平衡点。Mamba擅长处理长序列,Transformer擅长理解复杂关系,如果比例不合适,可能导致模型性能不佳。另外,混合架构的解释性也可能降低,给debug带来麻烦。

我觉得吧,以后相声界可能也要被AI取代了!用Mamba-Transformer混合架构训练出来的AI,不仅能记住所有的段子,还能根据现场观众的反应,即兴创作新的包袱!郭德纲老师也要失业了!

这问题问得好!我感觉这种混合架构就像是给汽车装了火箭发动机,理论上速度更快,但实际操作可能会出现各种问题:

* 架构冲突:Mamba和Transformer的设计理念不一样,强行捏合可能会导致水土不服,出现各种意想不到的bug。
* 资源消耗:混合架构可能会更吃显卡,训练成本更高,小团队可能玩不起。
* 调参地狱:两种架构的参数都需要调,想想就头大,头发又要掉了!