DeepSeek和月之暗面同时发布改进Transformer注意力机制的研究成果

DeepSeek 和月之暗面发布新研究,改进Transformer注意力机制,提升长文本处理能力。

原文标题:梁文锋、杨植麟同一天发论文“秀肌肉”,主题居然撞上了!下一代模型要来了?

原文作者:AI前线

冷月清谈:

DeepSeek 和月之暗面几乎同时发布了各自关于改进 Transformer 注意力机制的研究成果,都旨在提升其处理长上下文的能力并降低计算成本。
DeepSeek 的论文提出了名为 NSA(Natively Trainable Sparse Attention)的原生可训练稀疏注意力机制,通过动态分层稀疏策略、粗粒度 token 压缩和细粒度 token 选择,实现高效的长上下文建模。实验表明,NSA 在多个长上下文任务中保持了与全注意力模型相当甚至更好的性能,并在处理 64k 长度序列时实现了显著的计算加速。
月之暗面的论文提出了名为 MoBA(Mixture of Block Attention)的注意力混合架构。MoBA 让模型自主决定关注哪些部分,可以根据需要在全注意力和稀疏注意力之间切换。实验证明,MoBA 在保持模型性能的同时,显著降低了计算量。
这不是两家公司第一次在研究方向上“撞车”。此前,他们都关注于通过强化学习提升 AI 的推理能力,并被 OpenAI 在相关论文中提及。

怜星夜思:

1、除了稀疏注意力,还有哪些方法可以改进Transformer的注意力机制来处理长文本?
2、NSA 和 MoBA 这两种方法,各自的优缺点是什么?在实际应用中该如何选择?
3、未来,长文本处理技术的研究方向有哪些?

原文内容

整理|冬梅

2 月 18 日,DeepSeek 和月之暗面(Moonshot AI)几乎在同一时间发布了各自最新的研究成果,巧合的是,两篇论文的主题高度一致——都聚焦于改进 Transformer 架构中最核心的注意力机制,旨在提升其处理长上下文的能力并降低计算成本。由此可见,大家都在争相研究如何让 AI 更好地处理长文本,这不仅说明了行业对高效处理长文本的需求非常迫切,也是技术创新竞争进入白热化的缩影。

更有趣的是,两家公司的技术派明星创始人都亲自参与了研究,他们的名字分别出现在各自的论文和技术报告中,此举引发了外界的强烈关注。

2017 年,Transformer 架构被谷歌提出后便在技术圈内掀起热潮,它的出现被认为是 AI 发展史上的重要里程碑。但如此厉害的注意力机制,却有一个问题,它计算起来的复杂程度是和输入序列的长度是相关的,具体来说计算复杂度是输入序列长度 n 的平方,写成公式就是 O (n²)。

这就导致了在处理长的文本序列时,比如长度超过 1 万个 token 的文本,计算所需要的成本会大幅增加,而且还会占用很多内存。这就成了限制模型进一步扩大规模、提升能力的主要障碍。

DeepSeek 和月之暗面这两个研究团队都在想办法解决这个问题,他们用的方法叫稀疏注意力(Sparse Attention)。稀疏注意力的主要思路就是,在进行注意力计算的时候,减少那些没有必要的交互计算。这样一来,计算复杂度就能从原来的 O (n²) ,降低到 O (nlogn),甚至能达到 O (n)。而且,在降低复杂度的同时,还尽量让模型保持对长文本上下文的理解和处理能力。

两篇论文都说了什么?

那么,这两篇论文都具体说了什么?

首先是 DeepSeek 的论文,这篇论文名为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,主要讲述了 DeepSeek 提出的一种可原生训练的稀疏注意力机制 NSA(英文全称:Natively Trainable Sparse Attention,简称 NSA),能够通过动态分层稀疏策略,结合粗粒度 token 压缩和细粒度 token 选择,实现了对长上下文的高效建模。简而言之,就是能通过减少不必要的计算,让模型在处理长文本时既快又好。

长上下文建模是指让语言模型能够理解和处理很长的文本(比如一本书或一篇长文章)。这对于下一代语言模型非常重要,因为很多任务需要模型记住和理解大量的信息。但现在的问题是,现有的标准注意力机制(比如 Transformer 中的注意力机制)在处理长文本时计算量非常大,导致训练和推理速度变慢,成本也很高。

稀疏注意力是一种改进的方法,它通过减少不必要的计算来提高效率,同时尽量保持模型的能力。NSA 就是一种新的稀疏注意力方法,它通过两个关键创新来实现高效的长上下文建模,具体而言:

算法优化:NSA 机制设计了一种平衡计算强度的算法,并且针对现代硬件进行了优化。简单来说,它通过减少不必要的计算步骤,让模型在保持性能的同时跑得更快。这就像在读一本很厚的书时,不再需要逐字逐句地读,而是通过快速浏览章节标题和重点段落来理解主要内容。NSA 就像这种高效的阅读方式,它只关注重要的部分,跳过了不重要的细节,从而节省了时间。

端到端训练:NSA 还允许模型从头到尾(从输入到输出)进行训练,而不需要在中间增加额外的计算步骤。这样既减少了训练时间,又不会降低模型的表现。

实验表明,使用 NSA 训练的模型在多个任务上(比如阅读理解、长文本生成等)表现得和全注意力模型一样好,甚至更好。而且,在处理非常长的文本(比如 64k 长度的序列)时,在解码、前向传播和后向传播过程中分别实现了 2.5 倍、3.1 倍和 2.8 倍的加速,同时在多个长上下文任务(如长文本生成、问答和指令推理)中保持了与全注意力模型相当甚至更好的性能。

也就是说,NSA 通过减少不必要的计算,让模型在处理长文本时既快又好。

下图是全注意力模型(Full Attention)与 DeepSeek NSA 模型在性能和效率上的对比:

  • 左图:尽管 NSA 是稀疏的,但它在通用基准测试、长上下文任务和推理评估中的平均表现超越了全注意力基线模型;

  • 右图:在处理 64k 长度的序列时,NSA 在解码、前向传播和后向传播的所有阶段都实现了显著的计算加速,相比全注意力模型效率大幅提升;

同一天,月之暗面提交的论文名为《MoBA: Mixture of Block Attention for Long-Context LLMs》,也是一篇针对模型架构展开的讨论。

月之暗面的论文中提出了一个在核心思想上与 NSA 较为一致的架构:注意力混合架构 MoBA。(英文全称:Mixture of Block Attention,简称 MoBA)。

月之暗面同样阐述了目前世面上主流 AI 语言模型在处理长文本时,面临一个很大的问题:随着文本变长,计算量会急剧增加。这是因为传统的注意力机制需要计算每个词与其他所有词的关系,导致计算复杂度呈二次增长(比如文本长度增加 10 倍,计算量可能增加 100 倍)。这不仅让模型变慢,还增加了成本。

而现有方法在应对上述问题时都有局限性,比如:

  • 固定模式:比如只关注文本的开头或结尾(下沉注意力),或者只关注附近的一小段文本(窗口注意力)。但这些方法的问题是,它们假设某些部分更重要,忽略了其他可能的关键信息。

  • 简化计算:比如用线性近似代替复杂的注意力计算。虽然这样计算更快,但在处理复杂任务时,效果可能不如人意。

因此,月之暗面提出了一种新方法,叫做混合块注意力(MoBA)。它的核心思想是:让模型自己决定该关注哪些部分,而不是人为规定。这种方法借鉴了“专家混合(MoE)”的思想,就像让一群专家分工合作,每个人负责自己擅长的部分。

MoBA 的优势主要有两点:一是可以灵活切换:MoBA 可以根据需要,自动在全注意力和稀疏注意力之间切换。全注意力适合处理复杂任务,而稀疏注意力适合处理长文本,效率更高;二是高效且不影响性能:MoBA 在保持模型性能的同时,显著降低了计算量。比如在处理长文本时,它可以跳过一些不重要的部分,只关注关键信息,从而节省时间和资源。

目前,MoBA 已经被用在 Kimi(一个 AI 助手)中,帮助它更好地处理长文本请求。比如,当你让 Kimi 总结一本长篇小说时,MoBA 可以让它快速找到关键情节,而不需要逐字逐句地分析整本书。

下图是切注意力混合(MoBA)示意图:

(a) 切块注意力混合(MoBA)的一个实例;(b)将块注意力混合(MoBA)集成到快速注意力机制(Flash Attention)中。

那与全注意力机制相比,效果如何?下图展示了 MoBA(蓝色线条)和全注意力机制(红色线条)在不同方面的对比情况:

(a) 验证集上的语言模型损失(序列长度 = 8K);(b) 验证集上的尾随语言模型损失(序列长度 = 32K,最后 1K 个标记);(c) 拟合的缩放定律曲线。

  • (a) 子图:展示了在序列长度为 8K 时,验证集上的语言模型损失随着 PFLOP/s - days(一种计算量单位)的变化趋势。可以看到随着计算量的增加,两种方法的语言模型损失都在下降,且 MoBA 和全注意力机制的曲线较为接近。

  • (b) 子图:显示了在序列长度为 32K 且只关注最后 1K 个标记时,验证集上的尾随语言模型损失随 PFLOP/s - days 的变化。同样,随着计算量上升,损失下降,两者曲线有相似的下降趋势。

  • (c) 表格:给出了拟合的缩放定律曲线公式。这些公式可以用于预测在不同计算资源(C)下的损失情况。

也就是说,在不同序列长度和损失计算方式下,MoBA 和全注意力机制在计算量与损失关系上表现出一定的相似性。

一起瞄准思维链,
又一起聚焦模型架构

事实上,这不是两家公司第一次中心思想“大撞车”。

在 DeepSeek 发布 R1 时,Kimi 也难得地公开了 K1.5 的技术报告。要知道,Kimi 这家公司以前并不太喜欢对外展示自己的技术思路,但这次却破例了。有意思的是,这两篇论文的目标非常相似,都是想通过强化学习(RL)来提升 AI 的推理能力。

如果你仔细对比这两篇论文,会发现 K1.5 的报告在“如何训练一个推理模型”这个问题上,讲得更详细、更深入。无论是提供的信息量,还是技术细节的丰富程度,K1.5 都更胜一筹。不过,由于 DeepSeek 的 R1 发布后吸引了更多人的关注,K1.5 的论文反而被“冷落”了,没有得到应有的讨论和重视。

值得注意的是,连 OpenAI 也注意到了这两家总是思想撞车的 AI 明星创企。OpenAI 在其关于 o 系列模型推理能力讲解的论文里提及 DeepSeek - R1 和 Kimi K1.5。

DeepSeek - R1 通过独立研究运用思维链学习(COT)方法,实现了在数学解题和编程挑战中的优异表现。

在数学解题中,这种方法可以帮助模型更好地理解问题的逻辑结构,从已知条件逐步推导得出正确答案。例如在解决几何证明题时,模型可以按照思维链的步骤,先识别图形的性质和已知条件,然后运用相应的定理和规则进行推理,最终完成证明。

在编程挑战中,思维链学习使模型能够更清晰地规划代码结构,理解不同代码片段之间的逻辑关系,从而编写出更高效、准确的代码。

Kimi K1.5 同样通过独立研究采用思维链学习(COT)方法,在数学解题与编程挑战提高了模型效果。

而 OpenAI 选择 DeepSeek - R1 和 Kimi k1.5 作为对比的推理模型,一方面体现了这两个模型在推理能力已经得到了行业巨头的认可;另一方面,这也反映出思维链学习(COT)方法在提升模型推理能力方面的有效性和重要性得到了广泛关注。

这次两家又一起“杠”上了模型架构,或许从侧面说明了,我们距离下一步模型创新又近了一步。

声明:本文为 InfoQ AI前线整理,不代表平台观点,未经许可禁止转载。

参考链接:

https://arxiv.org/html/2502.11089v1

https://github.com/MoonshotAI/MoBA?tab=readme-ov-file

 会议推荐

在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。


今日荐文




图片
你也「在看」吗?👇

这个问题问得好!除了稀疏注意力,还有很多其他方法可以改进 Transformer 处理长文本的能力,例如:长输入 Transformer、Transformer-XL、Reformer、BigBird 等等,这些方法各有优劣,也都是目前研究的热点。

我觉得可以从压缩token入手,把长文本浓缩成更精炼的表达,这样既保留核心信息,又减少计算量,岂不美哉?

NSA 算法优化,硬件适配性更好,训练效率更高,但可能灵活性不足。MoBA 混合多种注意力机制,更灵活,适应不同长度的文本,但实现可能更复杂些。选择哪个取决于你的具体需求和资源限制,如果追求极致速度,NSA 可能更好;如果需要处理各种长度的文本,MoBA 更合适。

其实选择哪种方法,还得看疗效,啊不,是看实际测试结果。可以针对特定任务,分别用 NSA 和 MoBA 训练模型,然后比较它们的性能和效率,哪个好用就用哪个。

改进Transformer注意力机制处理长文本,除了稀疏注意力(Sparse Attention),还可以考虑线性注意力(Linear Attention),它将注意力计算的复杂度从O(n²)降低到O(n),效率提升很大。此外,还有Performer、Linformer等方法,也都致力于降低计算复杂度。

关于NSA和MoBA的优缺点和选择,我个人理解是,NSA强调的是“原生训练”和“硬件优化”,它更注重在不改变模型结构的前提下提升效率,适合对硬件资源比较敏感的场景。MoBA则更强调“混合”和“灵活切换”,它可以根据任务需求动态调整注意力策略,理论上更具通用性。至于实际应用中该如何选择,我觉得需要根据具体的任务需求和硬件条件来决定。

关于长文本处理技术未来研究方向,我个人比较看好以下几个方面:1. 更高效的稀疏注意力机制;2. 与知识图谱结合,增强模型对长文本的理解能力;3. 基于硬件的算法优化,提升计算效率;4. 探索更有效的长文本表示方法,例如图神经网络等。

未来长文本处理技术,我觉得应该会更注重语义理解,而不是简单地处理长序列。比如结合知识图谱、推理能力等,让模型真正理解文本的含义,而不是只记住表面信息。另外,更高效的硬件加速技术,以及更轻量级的模型结构,也是重要的发展方向。

我猜以后可能会出现类似“量子纠缠”的机制,让模型瞬间理解整个长文本,再也不用费劲巴拉地计算了,想想就刺激!