Transformer Attention机制的演进与优化路径深度解析

在FFN优化后,Attention机制成为LLM算法创新焦点。本文深入探讨了Linear、Sparse等主流优化方向及其代表性工作,揭示了Attention未来发展的无限可能。

原文标题:Which Attention is All You Need?

原文作者:机器之心

冷月清谈:

在大型语言模型(LLM)领域,随着前馈神经网络(FFN)模块通过MoE(Mixture of Experts)技术得到有效优化,算法创新的焦点已显著转移至Attention机制。本文深入探讨了Attention机制当前面临的核心挑战,即随序列长度呈O(N^2)增长的计算复杂度和KV缓存问题,并详细解析了业界为突破这些限制所进行的前沿探索。

目前,Attention机制的优化主要沿着两条主流路径推进:

1. **线性Attention(Linear Attention)**:旨在通过重参数化或近似Softmax Attention为线性操作,将计算复杂度从O(N^2)降低至O(N)。其设计思路包括基于核函数近似理论的方法(如Linear Transformer、Performer)、引入遗忘机制的方法(如RetNet、Mamba)以及将Attention视为在线优化记忆更新过程的方法。其中,月之暗面团队的Kimi Linear是一个引人注目的探索,它通过改进的Gated DeltaNet(KDA)引入通道感知门控机制,并创新性地采用3:1的混合架构(三层线性KDA后插入一层标准Full Attention)平衡效率与性能,显著减少KV缓存需求并提升长上下文处理速度。

2. **稀疏Attention(Sparse Attention)**:不进行全量Attention计算,而是通过高效机制预先筛选出“重要token对”子集进行计算。该路径包含固定模式(如滑窗、扩张注意力)、块稀疏(Block-Sparse)和基于聚类(Clustering)的方法。DeepSeek团队从NSA到DSA的进展是稀疏Attention的代表。DSA(DeepSeek Sparse Attention)采用更细粒度的token-wise稀疏策略,通过轻量级Lightning Indexer计算Token重要性代理分数,并选择Top-k个Token进行Full Attention计算,从而大幅提升训练与推理效率,在不显著影响性能的前提下,将注意力复杂度从O(L^2)降至O(Lk),成本最高下降60%-70%。

值得注意的是,除了主流的线性与稀疏路线,也有如MiniMax团队选择回归全局注意力(Full Attention),尝试通过工程优化在高N^2复杂度下实现高效利用。综上所述,Attention机制展现出丰富的优化可能性,有望成为AI领域的下一个重大突破,但其最佳设计方案尚未形成共识,业界仍在积极探索中。

怜星夜思:

1、文章提到了Linear Attention和Sparse Attention两种主流方案,还有Mimimax回归Full Attention。从实际部署和商用角度看,这三种路线各自有哪些工程上的挑战和优势?企业在选择时会主要考虑哪些因素呢?
2、Kimi Linear采用了混合架构(线性层后加一个Full Attention层),DeepSeek DSA则通过Top-k选择实现对部分token的Full Attention。这是否说明纯粹的线性或稀疏Attention在性能上存在固有瓶颈?未来的Attention会不会更多地走向“混合”或“选择性全连接”?
3、Attention机制的优化固然重要,但文章还提到了「上下文工程」影响SaaS业务逻辑等大模型应用层面的变化。你觉得,如果Attention机制在未来几年内真的迎来突破性进展,它对整个AI生态(从模型底层到应用层)会带来哪些深刻影响?除了计算效率,还有没有其他更深层次的价值?

原文内容

机器之心PRO · 会员通讯 Week 45

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1.Which Attention is All You Need?

为什么算法创新压力在 Attention?流行的 Attention 改良方案有哪些?为什么 Linear、Sparse 和 Hybrid Attention 仍有诸多变数?MiniMax 为什么回归 Full Attention?商用条件和约束对 Attention 设计有何影响?...

2. 猫步已成,「具身智能」的技术难关还有「哪几重门」?

当端到端学习只能模仿动作,人形机器人如何获得「理解身体」的能力?仿人五指 or 夹爪并行,人形机器人该追求「像人」还是「能用」?RL 和力控结合的「学习型身体」,让人形机器人具备了人类的动作智能?通用人形的未来,会从形态统一走向功能分化吗?...

3. OpenAI 1.4 万亿算力会是泡沫吗?

「非营利」混合架构如何解决「使命对齐」和「资本需求」的根本矛盾?「非对称独家性」有何战略优势?为何说「算力不足」是核心瓶颈?「杰文斯悖论」如何支撑 1.4 万亿的「前瞻性赌注」?「上下文工程」如何重构 SaaS 业务逻辑?...

本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 7 项,国外方面 10 项。
本期通讯总计 26661 字,可免费试读至 11% 
 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 


要事解读①  Which Attention is All You Need?
引言:在 FFN 模块被 MoE 成功优化后,业界对算法创新的压力和投入开始集中于 Attention 机制,并涌现了大量 Attention 的改良工作。这些探索工作展示了 Attention 机制丰富的可能性,使其有望成为下一个重大突破。然而,但在诸多路线下,最佳 Attention 设计方案尚无定论,「Which Attention is All You Need?」的问题仍然有待观察。

诸多路线下, Attention 优化之争,所谓几何?

1、2025 年以来,LLM 发展所需的数据和算力两大支柱正在遭遇显著的扩展瓶颈,因而导致算法的创新在当下尤为重要。[1-1] 

2、Transformer 作为当前最为流行的 LLM 架构,大量研究都在尝试改善其 FFN(前馈神经网络)和 Attention 两大核心组件。[1-1] 

3、MIT在读博士、Kimi Linear作者之一杨松琳在近期的访谈中指出,「近几年架构最大突破是DeepSeek的MoE,它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention」。[1-1]

4、在 FFN 模块被 MoE 成功优化后,业界对算法创新的压力和投入开始集中于 Attention 机制,也使其成为近期的研究重点。[1-1] 

① Attention 机制是 Transformer 成功的核心,但随序列长度 N呈 O(N^2)增长的计算复杂度和 KV 缓存问题等局限,业内涌现出大量对 Attention 的改良。[1-2]

5、为了打破 O(N^2) 的束缚,学术界和工业界对 Attention 的研究探索主要归纳为线性  (Linear Attention) 和 稀疏(Sparse Attention) 两条主流路径,以及分别衍生的混合(Hybrid)扩展。[1-2] 

① 线性 Attention 的目标是通过「重新参数化或近似 softmax attention 为线性操作」,将复杂度从 O(N^2)  降至 O(N)。

② 稀疏 Attention 不试图近似整个注意力矩阵,而是「将注意力计算限制在完整 Key 空间的一个子集上」 。它假定大多数 token 间的交互是不必要的,因此只计算那些「被选中」的交互。

6、此外,也有像 Mimimax 团队出于工程理性的判断,在M2 工作选择重新拥抱全局注意力(Full Attention),尝试通过工程优化让 O(N^2) 在特定场景下也能被高效利用。[1-3] 

7、基于各类研究工作所取得的改进和业界的探索热情,Attention 机制展现出丰富的可能性,有望成为 AI 领域的下一个重要突破。但其最佳设计方案尚未形成共识,仍有诸多可能性。


Linear v.s. Sparse,主流 Attention 改良 「玩」 法有哪些? 

1、Attention 机制是 Transformer 成功的核心,但标准的自注意力机制在于输入序列长度的二次方时间和内存复杂度 O(N^2) 仍是高效长序列建模的「根本障碍」(fundamental obstacle)。[1-2] 

① 这种二次方复杂度的根源在于,Attention 机制需要「计算所有任务位置之间的成对交互」,导致长序列的预填充(prefill)阶段的计算量巨大;解码(推理)阶段则需要存储和读取所有先前 token 的 KV 缓存,占据推理期间的内存带宽,成为长文输出的主要瓶颈。

2、清华大学的研究者在 2025 年 8 月的综述中,将近期尝试打破 O(N^2)制约的探索工作归纳为 Linear 和 Sparse 两条主流路径。[1-2] 

3、Linear Attention 的目标是通过「重新参数化或近似标准(softmax)attention 为线性操作」,将复杂度从  O(N^2) 降至 O(N),其设计思路大体可分为三类。[1-2] 

① 基于核(Kernelized)的 Linear Attention 方法利用核函数近似理论,通过找到一个特征映射来近似 Softmax 内核,从而降低计算复杂度。其代表性工作包含 Linear Transformer、Performer 和 cosFormer 等。

② 带有遗忘机制(forgetting mechanism)的 Linear Attention 则将注意力视为循环神经网络 (RNN) 或连续状态空间模型 (SSM),其中又分为数据无关衰减(如 RetNet、Eagle 等)和数据相关衰减(如 Mamba、GLA 等)。

③ 作为上下文学习器 (In-Context Learners) 的核心思想是将Linear Attention 重新解释为在线优化的记忆更新过程,从而增强模型的上下文学习能力。模型结构中直接包含了“快学习动态”或快速权重更新规则,将序列处理视为一个在线训练过程,目标是最小化记忆检索与新值之间的误差

4、在一系列 Linear Attention 工作中,月之暗面团于 10 月底提出的 Kimi Linear 是近期较为受关注的探索。该架构在各种场景中都优于传统的全注意力方法,包括短文本、长文本以及强化学习的 scaling 机制。[1-4] [1-5] 

① Kimi Linear 的核心是 改进 Gated DeltaNet(GDN)得到的 Kimi Delta Attention(KDA),通过引入一个通道感知(channel-wise)的的门控机制,让每个通道可以学习「独立的遗忘速率」,以优化有限状态 RNN 内存的使用。

② 纯粹的 O(N) 线性 Attention 在理论上仍然可能存在相较于 O(N^2) 全局连接的信息损失,Kimi Linear 设计了分层混合架构,它采用了 3:1 的层比例,在每三层线性的 KDA 层之后,插入一个标准的 Full Attention(MLA)层。

③ 在测试中,Kimi Linear 最多可将对大型 KV 缓存的需求减少 75%,并且在处理长达 100 万个 token 的上下文时,速度是Full Attention的 6 倍。

5、Sparse Attention 的目标是跳过 O(N^2)的全量计算,通过某种高效的机制预先筛选出一个「重要 token 对」子集,仅在这些子集上执行 Attention 计算,较为流行的有固定模式、块和基于聚类的方法。

① 固定模式的 Sparse Attention 使用静态的、与数据内容无关的掩码,包含只关注局部的相邻 token 的滑窗(如 Sparse Transformer、GPT-3)和让感受野随距离增加的扩张注意力(如 LongNet、LogSparse)等方法。

② Block-Sparse Attention 方法在在块(block)的粒度上进行路由选择,通常使用可训练的门控。可根据不同阶段分为面向预填充的(如 SpargeAttn)和面向解码的(如 Quest 和 DOubleSparsity)Block-Sparse ;以及使用可训练的 MLP 层(作为门控网络)来学习每个token重要性的基于路由的 Block-Sparse(如 DeepSeek NSA)。

③ 基于聚类的(Clustering)Attention 使用基于内容或位置的分组方法(如 k-means 或 LSH)来组织键值对 ,以便在选择关键令牌时具有更好的语义属性,代表性工作有 RetrievalAttention、ClusterKV 等。

6、在 Sparse Attention 路线中,DeepSeek 团队从 NSA 到 DSA 的进展是业内较为受关注的探索工作。[1-6] [1-7] [1-8] [1-9] 

① DeepSeek 的 NSA(Natice Sparse Attention)是一种 Block Sparse Attention,其设计了「动态分层稀疏策略」,通过将 Attention 的 Keys 和 Values 组成时间块,并结合了粗粒度 token 压缩、选择性保留的细粒度 token 和用于全局上下文的滑窗三中了 u 静进行处理,解决 LLM 长上下文建模问题。

② 相比 NSA 采用 Block-wise 的颗粒度,2025 年 9 月在 DeepSeek-V3.2-Exp 工作中提出的 DSA(DeepSeek Sparse Attention)采用了更细粒度的 token-wise 稀疏策略。

③ DSA 通过在模型中引入一个轻量级的 Lightning Indexer 对所有 token 进行快速的 O(N)扫描,为每个 token 计算出一个「重要性」的代理分数,然后通过「Top-k Token Selection」选出得分最高的 k 个 token,对齐进行 full attention 计算。

④ DSA 的目标是在不显著影响性能的前提下,大幅提升训练与推理效率。在 H800 GPU 集群的测试中,在 128k 长上下文条件下,DeepSeek-V3.2-Exp 将主模型的注意力复杂度从 O(L^2)降为 O(Lk),其单位 token 计算成本在预填充和解码阶段均有下降,成本最高下降达到 60%-70%。


Kimi Linear 之外,近期还有哪些值得关注的 Attention 改良方案?

对于“三种Attention路线,企业如何选择?”这个问题,我觉得最后还是得看“综合性价比”。Full Attention性能虽好,但O(N^2)的复杂度决定了它在处理长序列时资源消耗巨大,就像一台跑车,速度快但油耗高,适合对精度要求极高、预算充足的场景。Linear和Sparse Attention更像省油的经济型轿车,能在保证一定性能的前提下大大降低算力、内存和部署成本,对于追求大规模应用、降低用户使用门槛的企业来说更有吸引力。但它们各自的挑战在于,如何在稀疏化或线性化过程中,最大限度地减少信息损失、保证模型效果不“跳水”。企业选择时,除了考虑计算效率和成本,还会权衡模型的最大上下文长度、推理延迟、以及特定业务场景下对模型召回率和准确率的忍受度。

哈哈,这不就是“又要马儿跑,又得马儿不吃草”嘛!我觉得对于我们这些大模型应用开发者来说,能降低模型服务成本、提高响应速度才是王道。全连接Attention跑得快是快,但那费用和硬件要求,真不是一般公司能扛得住的。所以像Kimi Linear、DeepSeek DSA这些‘省钱’又‘高效’的方案,才更容易被大家接受和商用。毕竟,技术再牛,变不成实实在在的商业价值,那也是空中楼阁。我个人觉得,企业最终都会倾向于那些‘足够好用且不那么贵’的方案,让更多用户能用上,才是最大的成功。

说到Which Attention,从工程实践来看,三种路线各有千秋。Full Attention在短序列和中等序列上效果往往最好,但长序列下其显存占用和推理延时是硬伤,尤其是在实时交互场景下,用户等待时长是不可接受的,工程上需要极致的优化才能勉强支撑。Linear Attention和Sparse Attention则在长序列上表现出显著的效率优势,能有效降低KV Cache的存储压力,但潜在的精度损失和对稀疏模式/线性近似的设计精巧度要求很高,不当的设计可能导致模型能力下降。对企业而言,选择是个多维度的决策:模型的预训练成本、推理成本、目标用户的上下文长度需求、对模型性能(如生成质量、事实性)的容忍度、以及是否有能力投入大量研发进行底层优化,这些都是要综合考量的。简单说,这是性能、成本、可用性的“不可能三角”的抉择。

关于“Attention突破对AI生态的深远影响”这个讨论,我觉得如果Attention机制真的迎来突破性进展,其影响将远超计算效率。首先,从模型底层看,它意味着更长的“记忆力”和更强的“理解力”,模型处理数十万、上百万token不再是瓶颈,这会催生出真正能理解整本书、整个代码库甚至整个数据库的“超级大脑”。其次,对应用层的影响将是革命性的。例如,在个性化教育领域,模型能记住学生所有的学习历史和偏好,提供真正的定制化教学;在法律和医疗领域,能快速高效地分析海量文档,提供精准辅助。更深层次的价值在于,它可能打破现有SaaS的“短上下文”限制,让“上下文工程”变成真正的“领域知识工程”,用户无需反复输入和解释,模型就能持续提供高度相关的服务。甚至,这会加速AI在创意、决策等复杂任务上的应用,推动人机协作进入更智能的阶段,因为模型将能更好地“理解”和“记住”人类的复杂意图和多轮对话背景。

哇,那影响可就大了!别的不说,至少我们这些炼丹师不用再为O(N^2)的代码跑不动而掉头发了,哈哈!开个玩笑。不过认真讲,如果Attention真能突破,除了降低算力和成本,更重要的可能是模型的‘理解深度’和‘推理能力’会更上一层楼。想象一下,未来的大模型不再是简单的‘信息整合’,而是能进行更复杂的‘知识发现’和‘创造性思考’。比如,它能从海量非结构化数据中挖掘出全新的科学假说,或者创作出超越人类想象的艺术作品。到时候,‘上下文工程’可能就变成‘意图工程’了,我们可能只需告诉模型一个高阶目标,它自己就能分解任务、整合资源、甚至创造性地解决问题。我们现在用的很多SaaS可能都会被彻底重构,因为模型会比我们更懂我们的业务流程和需求。

我觉得这是必然趋势啊!纯粹的线性或稀疏,就像是给模型戴了个眼罩,虽然跑得快但看得不全。混合方案有点像“平时粗略看,关键时刻放大镜”,既保证效率,又避免关键信息遗漏。模型又不是人,哪能真的知道哪些token不重要?它也需要一个“兜底”机制来确保不会错过关键信息。想想看,如果未来Attention还能更聪明,根据上下文内容自己判断啥时候用线性,啥时候用稀疏,啥时候又需要Full Attention,那可就太酷了!这不就是机器学习的最高境界吗,让模型自己学会怎么“注意力”!

针对“纯线性/稀疏是否有固有瓶颈,未来Attention是否走向混合?”的讨论,我的看法是:是的,这两种案例确实间接说明了纯粹的线性或稀疏Attention在性能上可能存在固有瓶颈。线性Attention通过近似减少了交互,而稀疏Attention则主动剪枝了大量交互,这些操作本就是以牺牲部分信息连接为代价来换取效率的。因此,当面对需要捕捉全局或复杂依赖关系的场景时,这种信息损失可能导致性能下降。Kimi Linear和DeepSeek DSA的混合策略,正是为了在保持效率优势的同时,通过周期性地引入全连接或选择性地聚焦关键Token,来弥补纯粹方案的信息损失,从而达到性能与效率的平衡。我非常看好未来Attention会更多地走向“混合”或“选择性全连接”,甚至出现更智能的动态切换机制,根据输入内容和任务需求,自适应地选择最合适的Attention模式,实现真正的“按需连接”。

从信息论的角度来看,O(N^2)的Full Attention提供了最丰富的token间交互信息,但代价是巨大的计算开销。纯线性或稀疏Attention在形式上就是对这种信息量的“压缩”或“采样”。压缩就可能失真,采样就可能漏掉关键点。所以,Kimi Linear和DeepSeek DSA的混合策略,本质上是一种折衷:在大多数情况下采取高效的模式,但在关键层或关键信息上恢复更强的信息连接能力。这种设计哲学在工程上非常实用,既要保证模型的上限性能,又要照顾到实际的部署和运行成本。我认为未来的Attention机制,将不仅仅是“混合”,更可能是“分层混合”、“动态混合”,乃至“强化学习指导下的混合”,模型能够根据当前的任务和数据特征,智能地调整Attention的粒度和连接策略,从而在多样化的应用场景中取得最佳平衡。