开源大模型架构进入“省显存时代”：从 Gemma 4 到 DeepSeek V4 的长上下文优化复盘

turingbooks · 2026 年6 月 3 日 19:03

开源大模型正围绕长上下文与显存效率进行底层架构升级。

原文标题：2026 年开源大模型架构全复盘：显存暴省，DeepSeek V4 与 Gemma 4 这波底层神进化，我彻底看呆了……

原文作者：图灵编辑部

原文链接： http://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649842628&idx=1&sn=262631cf11e78d11349dc36d565a7ea6&

冷月清谈：

文章复盘了 2026 年多款开源大模型在架构层面的关键变化，核心趋势是围绕长上下文推理效率展开优化。Gemma 4 通过跨层 KV 共享减少缓存显存占用，并用逐层嵌入提升小模型的参数效率；Laguna XS.2 引入层级注意力预算，根据不同层的注意力类型动态分配查询头数量；ZAYA1-8B 使用压缩卷积注意力，在压缩潜在空间中直接执行注意力计算，以降低训练和预填充阶段的计算量；DeepSeek V4 则结合 mHC 残差路径改造与 CSA/HCA 压缩注意力，在百万级上下文场景下大幅降低 FLOPs 和 KV 缓存。文章认为，Transformer 并未停滞，而是在 Decoder-only 框架内不断替换和增强关键组件，模型进步不仅来自参数规模，也来自数据、训练策略和更复杂的系统工程。

怜星夜思：

1、长上下文越来越重要，但真的所有应用都需要 128K、1M 这种超长上下文吗？
2、Gemma 4 的跨层 KV 共享会牺牲一部分模型容量，这种“省显存换精度”的取舍你能接受吗？
3、DeepSeek V4 这类架构越来越复杂，普通开发者还有必要深入理解底层机制吗？
4、这些架构优化看起来都在降低推理成本，未来开源模型会不会更适合个人电脑和边缘设备？

原文内容

新一代开源大模型的架构正将重心转向长上下文处理效率的提升。

随着推理模型与 Agent 工作流需要处理的 Token 数量与留存时间不断增长，KV缓存大小、内存流量以及注意力计算成本迅速成为了阻碍性能提升的核心瓶颈。为了打破这一限制，开发者们正不断引入各种架构上的技巧。

本文作者 Sebastian Raschka，是《从零构建大模型》《大模型技术 30 讲》等畅销书的作者，这篇文章他将重点拆解几个典型案例：Gemma 4 的 KV 跨层共享与逐层嵌入、Laguna XS.2 的层级注意力预算、ZAYA1-8B 的压缩卷积注意力，以及 DeepSeek V4 的 mHC 机制与压缩注意力。

虽然在这些架构图中，上述变动看似只是细微的调整，但其中蕴含的设计逻辑相当精妙，值得我们跟着作者一起进行一次深度的技术复盘。

本文篇幅较长，建议码后仔细阅读。

这张图展示了4月至5月间发布的主流开源大模型架构

KV 跨层共享：实现缓存空间的有效缩减

在近期的架构演进调研中，我们将视角回溯至 4 月初发布的 Gemma 4 模型套件。该系列涵盖了针对移动与边缘设备（IoT）的 E2B 与 E4B 模型、针对高效本地推理的 26B 混合专家模型，以及追求最大模型性能、利于后训练优化的 31B 密集模型。

这张图展示了Gemma 4 模型架构

在 E2B 和 E4B 变体中，第一个值得关注的微小架构调整在于它们引入了共享 KV缓存方案。简单来说，后续层会复用早期层的键值状态，从而大幅降低长上下文处理时的内存占用与计算开销。

这种 KV缓存共享并非 Gemma 4 的原创技术。此前已有学术界探索，如 Brandon 等人在 NeurIPS 2024 发表的《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》一文。但 Gemma 4 是我见过的首个将此概念落地于主流开源架构的模型。

为什么我们需要“缩容”KV缓存？内存占用越小，意味着我们能处理更长的上下文——在如今推理模型与智能体大行其道的时代，这正是性能竞争的关键。

关于 KV 缓存机制的更多背景，推荐阅读我的文章《Understanding and Coding the KV Cache in LLMs from Scratch》。而关于各类注意力变体的设计思路，此前发布的《A Visual Guide to Attention Variants in Modern LLMs》或许能为你提供更全面的视角。

让我们回顾一个经典案例：分组查询注意力（GQA，Grouped Query Attention）。它通过让多个查询头（Query heads）共享相同的键值头，从而实现了缓存规模的压缩。

具体逻辑如下图所示：

这张图展示了分组查询注意力 (GQA) 在多个查询头之间，共享相同的键值头

Gemma 4 在沿用分组查询注意力的基础上，带来了一项更激进的架构优化。它不仅在查询头之间共享 KV，还实现了跨层级的 KV 投影共享。这种机制跳过了在每一层注意力模块中重复计算的步骤，直接在层间复用 KV 投影。

这种设计被称为“KV 跨层共享”（Cross-layer Attention），传统的 Transformer 模块在每一层都要独立计算 Q、K、V 投影，而KV 跨层共享则实现了 K 和 V 投影的层间复用。

如图左所示，常规 Transformer 模块需要在每一个注意力模块中，对 Q、K、V 进行独立的投影计算。相比之下，如图右所示，跨层注意力设计采取了更高效的策略，它实现了K和V投影在多个层级间的共享

回溯Gemma 4 模型架构示意图，Gemma 4 E2B 在架构上采用了常规 GQA 与 4:1 比例的滑动窗口注意力。

在 GQA（或 MQA）架构下，KV 跨层共享的运作逻辑非常清晰，后续层不再独立计算 KV 投影，而是直接复用同一注意力类型中距离最近的非共享层的 KV 张量。这意味着滑动窗口层复用滑动窗口层的 KV，全注意力层亦然。虽然每层仍保留独立的查询投影以维持个性化的注意力模式，但原本沉重的 KV 缓存被有效地分摊了。

以Gemma4E2B 为例在35层Transformer 结构中，只有前 15 层负责计算 KV，余下的20 层直接复用最近层的 KV 张量。同理，Gemma4E4B拥有 42 层结构，其中 24层承担计算，后18 层执行共享。

通过这种“对半共享”策略，KV 缓存规模直接削减了约50%。在128K长上下文场景下，这一优化为 E2B 模型带来了2.7GB的显存节省，而 E4B模型则节省了约6GB。

这张图展示了在类似 Gemma 4 E2B 的配置下，GQA 与跨层 KV 共享机制所带来的 KV 缓存显存节省

当然，凡事皆有代价。这种机制本质上是一种“近似”，在一定程度上会降低模型容量。不过，根据跨层注意力机制的相关论文结论，对于已测试的中小型模型而言，这种性能折损微乎其微。

逐层嵌入与“有效”规模

Gemma 4 的 E2B 与 E4B 变体引入了第二项效率优化设计：逐层嵌入（Per-Layer Embeddings, PLE），该技术与前述的 KV 共享方案彼此独立。

KV 共享旨在缩减 KV Cache，而逐层嵌入则侧重于参数效率（Parameter Efficiency）。该机制的优势在于，能够使小规模的 Gemma 4 模型利用更丰富的Token特征信息，同时避免了让主 Transformer 堆栈像同等参数规模的密集模型那样昂贵。

在 Gemma 4 E2B 与 E4B 中，“E”即代表“有效”（Effective）。具体而言：

Gemma 4 E2B：有效参数量为 2.3B，计入嵌入层后的总参数量为 5.1B。
Gemma 4 E4B：有效参数量为 4.5B，计入嵌入层后的总参数量为 8B。

简言之，在这些“E”系列模型中，主 Transformer 堆栈的计算量更接近于较小的数字，而较大的数字则包含了额外的嵌入表层。关于嵌入层如何运作，可参考《Understanding the Difference Between Embedding Layers and Linear Layers》一文。

这张图展示了简化版 Gemma 4 模块与逐层嵌入残差路径设计。在该架构中，常规模块首先执行注意力与前馈残差更新。随后，产生的隐状态（hidden state）会对逐层嵌入向量进行门控，并将投影后的PLE更新作为额外的残差更新，在模块末尾进行累加

PLE 向量的构建过程位于重复的 Transformer 模块之外。简化来看，其构建涉及两个关键输入：Token ID 经过逐层嵌入查找，常规 Token 嵌入经过线性投影映射至统一的压缩 PLE 空间。这两部分数据经过相加、缩放与重塑，最终形成一个每层对应一个切片（slice）的张量。每个 Transformer 模块均会接收并应用其专属的切片数据。

这张图展示了简化版 PLE 构建逻辑

需要强调的关键细节是：PLE 并非为每个 Transformer 模块分配一份完整的、独立的 Token 嵌入层副本。相反，系统只需执行一次逐层嵌入查找。正如前文所述，通过“重塑与层级选择”机制，每一层均能获得一个微小的 Token 特异性嵌入切片。

因此，针对每个输入 Token，Gemma 4 会预先准备一个封装好的 PLE 张量，其中涵盖了对应每个解码器层的微小向量。在前向传播阶段，第I层仅接收其专属切片。

在 Transformer 模块内部，注意力分支与前馈网络分支的运作逻辑保持常规。模块首先完成注意力残差更新，随后进行前馈网络残差更新。在完成第二次残差累加后，所得的隐状态将被用于门控（Gate）该层的特定 PLE 向量。这一经过门控的 PLE 向量随后会被投影回模型隐藏层维度，经过标准化处理，最终作为额外的残差更新项累加至系统中。

我们可以建立这样一个直观的认知模型：Transformer 模块的核心注意力与前馈路径保持不变，但 Gemma 4 在前馈分支之后，巧妙地引入了一个层级特定的微小 Token 向量。这种机制通过增加嵌入参数与微型投影层，显著提升了模型的表征能力。尽管这不可避免地带来了少量计算开销，但相比于将整个 Transformer 堆栈扩容至相同规模，这种方案极大程度地规避了参数量暴增带来的高昂计算代价。

为什么选择 PLE？最直观的替代方案是压缩密集模型，例如减少层数、缩减隐藏层维度或缩小前馈网络规模。虽然这确实能降低内存开销与延迟，但不可避免地会削弱模型核心计算区域的容量。

PLE 架构的精妙之处在于：它将高昂的 Transformer 模块维持在较小的“有效”规模，同时将额外的模型容量存储在逐层嵌入表中。相较于盲目增加注意力机制或 FFN 权重，这种方式更为经济，因为它们本质上是更易于缓存的“查询式”参数。

当然，我们目前尚需基于 Google 的官方论述来评估这一设计的实际效能。若能开展针对性的对比研究，将 Gemma 4 E2B 架构与常规的 Gemma 4 2.3B 及 5.1B 模型进行横向测评，无疑会非常具有参考价值。

原则上，PLE 并不局限于小型模型。理论上我们可以在大型模型中添加逐层嵌入切片，但大型模型自身往往已具备充足的容量，额外的嵌入参数提升可能并不显著。此外，针对大型模型，业界已广泛采用 MoE（混合专家模型）架构，旨在以较小的计算成本实现容量扩展。

顺带一提，如果你对相关代码实现感兴趣，我已经在 GitHub 上从零构建了 Gemma 4 E2B 与 E4B 模型，代码逻辑力求简洁易读。

层级注意力预算

Poolside 是一家立足欧洲、专注于代码生成大模型训练的前沿企业，而 Laguna 正是其推出的首款开源权重模型。近年来，我的一些前同事陆续加入了 Poolside，这是一支极具天赋且技术底蕴深厚的专业团队。乐见更多公司拥抱开源浪潮，将自研模型以开源权重形式对外发布。

回归正题，从架构层面来看，下方展示的 Laguna XS.2 模型初看十分标准。然而其中有一个未在图中直观呈现的核心技术细节，即我们所称的“层级注意力预算”（Layer-wise attention budgeting）。

这张图展示了Poolside Laguna XS.2 模型架构解析。

Laguna XS.2 的注意力预算设计理念在于放弃了“一刀切”的均等化分配，转而根据层级差异动态调整注意力代价。模型架构包含 40 个层级，其分布策略如下：

滑动窗口注意力层（30 层）：仅处理局部窗口信息（设定为 512 tokens），旨在降低 KV 缓存压力与计算开销。
全局/全注意力层（10 层）：虽然计算代价更高，但保留了对整个上下文窗口信息的完整访问能力。

这种“滑动窗口 + 全局注意力”的混合模式并非 Laguna XS.2 独有，其真正的技术创新在于引入了逐层动态调整查询头数量的机制。通过配置 num_attention_heads_per_layer 参数，模型允许各层在维持 KV 缓存形状兼容的前提下，实现查询头数量的精细化适配。

这张图展示了Laguna 在模型架构中创新性地引入了逐层查询头预算机制。在该配置下，全注意力层采用了“每 KV 头对应 6 个查询头”的分配方案；而滑动窗口注意力层则调整为“每 KV 头对应 8 个查询头”，从而在算力开销与模型表征能力之间实现了更精细的动态适配

简单来说，Laguna XS.2 通过差异化的分配策略，实现了真正的层级化头部预算（Layer-wise head budgeting）。在配置文件中，模型保持了 8 个 KV 头的固定配置，但在查询头的分配上做出了动态调整：滑动窗口注意力层被赋予了更多的查询头，而全局注意力层则配置较少。

Laguna XS.2 是近期生产级开源模型中，应用逐层查询头预算设计最显著的标杆案例之一。事实上，这种根据层级动态调整模型容量的理念并非孤例，其设计源头可追溯至 Apple 在 2024 年提出的 OpenELM 架构。

那么，这种设计的核心目的究竟为何？与 KV 共享机制如出一辙，其逻辑在于将注意力算力集中在最需要的地方，而非“一刀切”地为每一层分配均等预算。具体而言，全局注意力层因需要覆盖整个上下文，计算成本极高，因此 Laguna 选择通过减少查询头数量来抑制其资源消耗，从而将更多算力倾斜至滑动窗口注意力模块。

此外，还有一个值得注意的微观实现细节：Laguna 还采用了逐头注意力输出门控（Per-head attention-output gating）。这一设计与 Qwen3-Next 等模型有异曲同工之妙。

压缩卷积注意力

ZAYA1-8B 是开源模型市场中的又一位新晋选手，与前文提及的 Laguna 颇有几分相似。该模型由 Zyphra 开发，而此次发布中最值得玩味的一点在于：它的训练并非基于业界惯用的 NVIDIA GPU 或 Google TPU，而是完全在 AMD GPU 上完成的。

谈及核心架构细节，压缩卷积注意力（Compressed Convolutional Attention, CCA）与分组查询注意力的强强联合是其最大亮点。

与 MLA（多潜向量注意力）类设计主要将潜在表征作为紧凑的 KV 缓存格式不同，CCA 实现了质的突破：它直接在压缩的潜在空间内执行注意力运算——关于这一点，我们在后文中会有更深入的探讨。

观察 ZAYA1-8B 的 config.json 文件可以发现，它列出了 80 个交替的层条目，而非传统的 40 个 Transformer 块。这些条目在 CCA/GQA 注意力层与 MoE 前馈层之间交替出现。不过，为了架构图的可视化表现，将其抽象为 40 个重复的“注意力 + MoE”对，在概念上是完全等价的。

这张图展示了Zaya1 (8B) 模型：搭载集成压缩卷积注意力机制 (CCA)的 Transformer 模块

如上图所示，ZAYA1-8B 采用了压缩卷积注意力机制，并搭配了 4:1 的分组查询注意力布局。其核心架构亮点在于，注意力模块是围绕 CCA 构建的，而非采用传统的滑动窗口注意力模块。

那么，究竟什么是压缩卷积注意力（CCA）？从核心理念来看，CCA 与 DeepSeek 模型中采用的多头潜在注意力有异曲同工之妙，二者均在注意力模块中引入了压缩潜在表征（Compressed Latent Representation）。

然而，二者对这一潜在空间的应用逻辑截然不同。MLA 的主要目的是压缩 KV缓存，在 MLA 中，KV 张量以紧凑形式存储，随后被投影至注意力头空间，以执行实际的注意力计算。

这张图展示了常规多头注意力 (MHA) 与多头潜在注意力 (MLA) 的架构并置对比

CCA 的核心逻辑在于它不仅仅是对 Q、K 和 V 进行压缩，而是直接在压缩后的潜在空间中执行注意力运算。

正因如此，CCA 不仅能够有效缩减 KV缓存的空间占用，还能显著降低模型在预填充（prefill）及训练阶段的注意力计算开销（FLOPs）。

这张图展示了多头潜在注意力 (MLA) 与压缩卷积注意力 (CCA)架构方案

如上图所示，在 CCA架构中，经过压缩的潜在表征（Latent Representation）直接进入注意力机制参与运算。计算得出的压缩注意力向量，随后被执行上投影（Up-projected）操作，恢复至目标维度。

该机制之所以冠以“卷积”之名，在于其在潜在的 K 和 Q 表征上引入了卷积混合过程。

卷积混合直接作用于压缩后的 Q 和 K 张量。压缩的本质代价在于维度缩减——这虽然能显著节省计算资源并降低 KV缓存占用，但往往会牺牲注意力的表达能力。引入卷积，正是为了以极低的算力成本，在计算注意力得分前，为压缩后的 Q 和 K 向量注入更多的局部上下文信息。

（注：卷积仅作用于 Q 和 K，不对 V 进行处理。原因在于，Q 和 K 共同决定注意力得分的分布，而 V 仅是承载最终被加权平均的内容实体。）

这张图片展示了序列混合卷积的原理概述

除了序列混合外，CCA 架构还引入了一个通道混合（channel mixing）组件。鉴于二者在原理上的高度同构性，此处不再赘述。

从技术溯源来看，CCA 并非随 ZAYA1-8B 的技术报告同步产出，而是由 Zyphra 团队先行定义。早在 2025 年 10 月发布的论文《Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space》中，CCA 概念便已正式确立，而 ZAYA1-8B 则是将该技术作为核心架构基石的一次重要工程实践。

那么，CCA 是否具备超越 MLA 的潜力？依据 CCA 原论文的实验结论：在同等压缩配置条件下，CCA 的性能表现确实优于 MLA。

这张图片展示了CCA 论文https://arxiv.org/abs/2510.04476.中的注释图表

总结来看，ZAYA1-8B 最令人眼前一亮的，无疑是它那套全新的注意力机制。

该模型采用了极其稀疏的 MoE（混合专家模型）架构——每个 Token 仅激活一名路由专家。虽说这种设计在当下已非新鲜事，但其技术表现依然值得关注。

而 CCA 的引入，让它显得与众不同：它直接在压缩的潜在空间内完成注意力运算，并创新性地利用卷积混合（Convolutional Mixing）机制作用于压缩后的 Q 和 K 表征。这一巧妙设计有效弥补了压缩带来的信息损失，让模型即便在紧凑状态下，也能保持强劲的注意力表征能力。

简而言之，ZAYA1-8B 的技术野心远不止于前馈层（Feed-forward layers）的算力优化，它更进一步，将算力成本的削减触角延伸至了注意力机制的核心逻辑之中。

CSA/HCA、mHC 与压缩注意力缓存

DeepSeek V4 无疑是今年迄今为止最重磅的发布，无论是市场热度还是模型硬核规模，都处于行业顶尖梯队。值得玩味的是，若从“激活参数占比”这一关键指标来看，DeepSeek V4-Pro 堪称下表中参数稀疏度最高的 MoE 架构。

激活参数占比（Active parameter share）仅能作为观察模型的一个视角。它无法涵盖 KV缓存大小、注意力模式、上下文长度、路由开销、硬件效率或训练质量等深层因素。尽管如此，在横向对比稀疏模型时，这依然是一个高效且实用的快速评估指标。

关于 DeepSeek V4，外界讨论已铺天盖地。为了保持内容聚焦，我将略过冗余信息，直接切入与前代架构相比最具创新性的两点核心变革：

mHC：旨在构建更宽的残差路径。
CSA/HCA：用于实现长上下文的注意力压缩与稀疏化。

关注下方 DeepSeek V4 的架构图，信息量极大，直接阅读容易陷入细节陷阱。理解该架构的高效方式在于将其解构为两条主线：关注 mHC 带来的路径优化、关注 CSA/HCA 与压缩注意力缓存的协同作用。

这张图片展示了DeepSeek V4-Pro 架构概览

1.流形约束超连接 (mHC)：深度重构残差路径

我们先来拆解 DeepSeek V4 中的 mHC 组件。这项技术源自 DeepSeek 团队去年年底（2025年12月31日）发表的论文《mHC: Manifold-Constrained Hyper-Connections》。当时该技术仅在 27B 的实验性模型上进行了验证，而如今它已成功落地于旗舰级模型，这无疑是该方案在生产环境表现优异的有力佐证。

mHC 的核心在于对 Transformer 块内部残差连接（Residual Connections）的现代化改造。这在当下显得颇为“清流”，毕竟绝大多数架构优化仍聚焦于注意力机制、归一化层位置或 MoE 结构。

mHC 的设计思想承袭自 Zhu 等人 2024 年提出的 Hyper-connections（超连接）概念。简单来说，它通过引入多条并行残差流及其间的可学习映射，彻底重构了 Transformer 内部单一残差流的传统范式。

其核心逻辑在于“加宽”残差流。你可以将其想象为维护多条并行的残差流，并通过“Res Mapping（残差映射）”线性变换，实现各层级间的信息混合。由于 Attention 或 MoE 层本身仍基于标准隐藏层维度运行，因此 mHC 引入了两项关键操作：

Pre Mapping：将多条并行残差流合并为一个标准的隐藏向量，以供层内计算使用；
Post Mapping：将层输出重新分发回多条并行残差流中。

关于这一机制的运作，下图进行了直观的展示。

这张图展示了基于mHC 论文https://arxiv.org/abs/2512.24880.中的注释图，我们可以直观对比常规 Transformer 块（上图）与搭载超连接的 Transformer 块（下图）在架构设计上的核心差异

下图重点展示了 Transformer 块中注意力层部分的结构，但同样的原理也完全适用于 MoE 层周围的第二个残差分支。

超连接（Hyper-connections）的设计初衷，在于在不改变 Attention 或 MoE 层实际计算宽度的情况下，显著增强残差路径的表达能力。

这种机制带来的算力（FLOPs）开销极小。原因在于，额外的映射操作是基于较小的残差流轴进行的（以 DeepSeek V4 为例，n=4），而非在庞大的隐藏维度上展开。在原始的超连接论文实验中，7B 参数的 OLMo MoE 模型单 Token 计算量仅从 13.36G 微增至 13.38G，性能损耗几乎可以忽略不计。从实验结果来看，该机制也确实带来了稳健且小幅的性能提升。

（当然，仅仅关注 FLOPs 难免有些片面。加宽后的残差状态依然涉及存储、内存搬运以及混合计算等操作。因此，实际的系统开销可能更多源于内存带宽瓶颈和工程实现的复杂度，而非算术运算本身——这一点在论文中并未被显式度量。但鉴于 DeepSeek V4 对效率的极致追求，引入该机制显然是一项值得的改进。）

这张图展示了基于Hyper-connections原始论文https://arxiv.org/abs/2409.19606.研究数据，超连接架构与基准模型的性能对比

如图所示，该架构仅需约一半的训练 Token，便能达到基线性能水平。

相比常规的超连接（HC），流形约束超连接（mHC）的核心改进在于对映射关系的约束。在常规 HC 中，作为残差混合器的 Res Mapping 矩阵是完全可学习的。然而，随着网络层数堆叠，未经约束的映射极易导致信号出现不可预期的增益或衰减，进而影响模型稳定性。

mHC 将残差映射严格限定在双随机矩阵（Doubly Stochastic Matrices）流形之上——即矩阵所有元素均为非负，且每一行与每一列之和均恒等于 1。这一数学限制，本质上是将残差混合转化为一种稳定的信息重分布过程。同时，Pre Mapping 与 Post Mapping 层也引入了非负性与边界约束，有效规避了在读写加宽残差状态时可能发生的信息抵消问题。

简而言之，mHC 在保留 HC 丰富残差混合特性的同时，通过引入约束确保了模型在纵深扩展时的安全性与鲁棒性，这对于深层的大规模模型而言至关重要。

至于其核心架构，即并行残差流的设计思路，仍保持不变，详细示意图如下。

这张图展示了基于 mHC 论文https://arxiv.org/abs/2512.24880.提供的注释图，我们深入对比了 Transformer 模块在 HC与 mHC两种架构下的设计差异

根据 mHC 论文中的实验数据，DeepSeek 团队在 27B 参数模型上对其优化实现进行了验证。结果显示，在所有 Transformer 块中采用 4 条残差流（n = 4）架构后，其训练时间开销仅比传统的单流基线增加了 6.7%。

本节总结：HC/mHC 架构的核心在于以多个相互交互的残差流取代了单一残差流，从而彻底改变了信息在这些层间的传递逻辑。得益于 mHC 中引入的额外稳定性约束，该方案在保持极低算力开销的同时，显著提升了架构的稳健性。此外，该机制与 CSA/HCA 注意力优化方案高度兼容，两者相辅相成，共同作用于 Transformer 块的各关键部位，具体的细节分析我们将在下文展开。

2.借助 CSA 与 HCA 实现注意力压缩

DeepSeek V4 架构的另一项核心变革，则聚焦于注意力机制。

其背后的驱动力依然明确：在超长上下文场景下，注意力机制的开销激增——这不仅源于注意力分数计算本身，更在于随着序列长度增长，KV缓存的显存占用也随之迅速膨胀。为此，DeepSeek V4 巧妙地引入了一套混合压缩注意力机制，通过结合压缩稀疏注意力（Compressed Sparse Attention, CSA）与重度压缩注意力（Heavily Compressed Attention, HCA），有效地化解了这一计算瓶颈。

如果需要回顾相关背景知识，推荐阅读我此前的文章《现代大模型注意力变体可视化指南》。其中详细拆解了多头潜在注意力（MLA）、DeepSeek 稀疏注意力（DSA）等关键机制，能帮你快速建立认知。

首先需要明确的是，DeepSeek V4 中采用的 CSA/HCA 机制，与此前 V2/V3 版本中使用的 MLA 风格压缩有着本质上的逻辑差异。

MLA 的核心在于对每一个 Token 的 KV 表示进行特征层面的压缩。相比之下，CSA 和 HCA 则是通过沿着序列维度进行压缩，从而实现了更深层次的优化。换句话说，模型不再机械地为每一个历史 Token 都保留一个完整的（或经过压缩的）KV 条目，而是将一组 Token 汇总为数量更少的压缩 KV 条目。

显而易见，这直接带来了 KV 缓存长度的有效缩减。虽然 DeepSeek V4 在实现中依然用到了紧凑的压缩条目与共享 KV 注意力技术，但它与 MLA 之间最核心的区分点，依然在于这种序列长度层面的压缩范式。具体架构逻辑详见下图。

这张图展示了MLA 风格的逐 Token 隐式缓存、CSA 及 HCA 进行了概念层面的核心对比。虽然 MLA对存储的 KV 表示进行了压缩，但其核心逻辑在于依然为每一个 Token 保留一个隐式表征。CSA 利用 $m=4$ 的分块及稀疏 Top-k 筛选机制，对序列长度进行了温和的轻量级压缩。而 HCA 则通过m'=128实现高强度序列压缩，从而能够在更短的缓存空间上执行密集注意力计算

在理解 DeepSeek V4 的机制时，我们需要关注其在性能与质量之间的微妙权衡（Trade-off）。CSA/HCA 与 MLA 在设计哲学上有着本质区别。

如前文图示，MLA 虽然压缩了每个 Token 的存储表征，但它依然保持了“每个 Token 一个隐式 KV 条目”的架构。相比之下，CSA 以及更为激进的 HCA，其切入点更深：它们直接减少了序列条目本身的数量。这意味着，模型通过牺牲一定的 Token 级精细信息，换取了大幅降低的长上下文计算成本。

当然，这是一把双刃剑。若压缩力度过大，难免会损伤模型的建模质量。因此，DeepSeek V4 并未将赌注压在单一的压缩方案上，而是巧妙地交替使用 CSA 与 HCA 机制，以实现更优的动态平衡。

CSA（压缩稀疏注意力）：采用较为温和的压缩率，并沿用了我在此前 DeepSeek V3.2 解析中深入探讨的 DSA（DeepSeek 稀疏注意力）风格的筛选机制。
HCA（重度压缩注意力）：这是两者中更为激进的变体。它将每 128 个 Token 压缩为一个 KV 条目，并在此基础上进行密集的注意力计算。

这种设计呈现出高度的互补性：CSA 通过稀疏筛选保留了更多的 Token 细节；而 HCA 通过极致压缩条目数量，使得模型能够承担得起针对这些条目的密集注意力计算。

与此同时，为了确保模型在处理近期信息时的准确度，两者均保留了一个局部滑动窗口分支，专门用于处理近期的未压缩 Token。这也解释了为什么 DeepSeek V4 选择交替堆叠 CSA 和 HCA 层，而非单一使用其中某一种——这种混合架构有效地兼顾了信息的深度与上下文的广度。

这张图展示了在 DeepSeek V4 的机制设计中，CSA 与 HCA 呈现出互补的逻辑：CSA 通过稀疏选择机制，仅关注部分关键的历史压缩块；HCA 采取了更为激进的压缩策略，但针对这些重度压缩后的数据块，进行了全覆盖的密集注意力计算。两条路径均并入了基于 128-token 滑动窗口的分支，以完整保留近期的未压缩 KV 信息

根据 DeepSeek V4 论文披露的数据，在 1M 超长上下文这一极具挑战性的场景下，DeepSeek V4 的表现令人瞩目。与沿用 MLA 和 DeepSeek 稀疏注意力技术的 DeepSeek V3.2 相比，新架构实现了显著的降本增效：DeepSeek V4-Pro单 Token 推理所需的 FLOPs 仅为原先的 27%，KV缓存显存占用也缩减至 10%。DeepSeek V4-Flash性能优化更为极致，FLOPs 仅占 10%，KV缓存占用则进一步压缩至 7%。

这张图展示了DeepSeek V4 论文中公布的百万上下文效率指标，以 DeepSeek V3.2 为参照基准

我并不认为 CSA/HCA 在通用意义上就“优于” MLA。CSA/HCA 本质上是一种更为激进的长上下文设计方案，当然，其实现复杂度也必然更高。

很遗憾论文中并未给出相关的消融实验。但从整体来看，该论文所展现的建模效果依然非常强劲——例如 DeepSeek V4-Flash-Base 在大多数基准测试中均超越了 DeepSeek V3.2-Base，并且在 1M-token 的超长文本检索任务中表现卓越。

不过需要指出的是，这些成果是基于 DeepSeek V4 的“完整配方”实现的。该配方不仅仅依赖于单一技术，还集成了更优质的数据、基于 Muon 的优化、mHC 架构、精度与存储优化，以及训练和推理系统的全面升级。

现阶段我们可以将 CSA/HCA 看作一种以效率为导向的长上下文设计。它在 DeepSeek 的大型旗舰模型中展现了良好的建模性能，但并不意味着它在所有场景下都具备压倒性优势，优于 MLA。

结语

总的来说，今年模型界呈现出一个有趣的趋势：大多数新的开源权重模型都在致力于降低长上下文推理成本，而非简单粗暴地通过削减模型总参数量来实现。举例来说：

Gemma 4 通过跨层 KV 共享来优化缓存，并借逐层嵌入提升模型容量。
Laguna XS.2 对各层的注意力容量进行了更精细的微调。
ZAYA1-8B 将注意力机制迁移到了压缩后的潜在空间中。
DeepSeek V4 则引入了受限残差流混合与压缩长上下文注意力机制。

所有这些变体设计都极大地增加了架构复杂性，这也恰恰反映了当前大模型架构演进的核心方向。

我的核心观点是：Transformer 架构并未停滞，而是在进行高针对性的迭代。虽然基础框架依然沿用 GPT Decoder-only 的原始架构，但内部诸多核心组件已完成升级或置换，变得更专精于长上下文处理与推理效率的提升；而模型性能的质变，很大程度上依然源于高质量的数据与训练策略。

过去许多人问过我 Transformer 是否会被取代。答案是：尽管目前存在扩散模型等其他设计方案，但 Transformer 依然是目前最先进架构的业界标准。

然而，伴随着每个季度密集的版本发布，我们看到的“微调”越来越多。如果说以前仅需 50-100 行 PyTorch 代码即可实现一个基础 Transformer 模块，那么在引入这些新组件之后，代码复杂度已经飙升至原来的 10 倍。这本身并非坏事，毕竟它们确实降低了运行时成本；但问题在于，我们正变得越来越难以彻底理清这些独立组件及其复杂的交互逻辑。

这张图展示了从 2019 年 GPT-2 到 2026 年 DeepSeek V4-Pro 的技术演进历程

举个例子，我深信对于初探大模型架构的读者而言，面对 DeepSeek V4 的源码，大概率会产生一种“深陷重围”的挫败感。但若我们从最基础的 Decoder 架构（如 GPT/GPT-2）切入，再像拼积木一样，循序渐进地拆解每一个新组件，学习曲线就会变得平滑许多。这或许就是学习的真谛：“保持耐心，稳扎稳打，一次吃透一个架构。”

文章链接https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures.

RedFox202 · 2026 年6 月 5 日 17:31

边缘设备上跑大模型，瓶颈不只是参数量，还有内存带宽、功耗和散热。KV 共享、压缩注意力这些优化确实有帮助，但要真正普及，还得配合量化、编译器、芯片指令和系统调度一起做。

Valor47z · 2026 年6 月 6 日 15:04

如果只是调 API 做应用，确实没必要把 mHC、CSA、HCA 都啃透。但如果你要做本地推理优化、模型微调、长上下文 RAG，底层机制就很重要了。不懂架构，很容易把问题全归因于 prompt。

Quartz24q · 2026 年6 月 9 日 22:29

会更适合，但个人电脑用户也别幻想 1M 上下文随便跑。论文里的效率提升很香，落到实际硬件上还有一堆坑：驱动、框架支持、算子优化、显存碎片，哪个都能把人折腾半天。

SpringFlower865 · 2026 年6 月 9 日 22:41

我比较乐观。以前本地跑模型像是在跟显卡搏命，现在越来越多架构开始主动照顾消费级硬件。只要模型能力别缩水太厉害，本地 AI 助手、离线代码助手、隐私文档分析都会更有吸引力。

StormyRaven098 · 2026 年6 月 11 日 06:44

回答 Gemma 4 这个取舍：可以接受，但希望厂商别只给平均分。用户真正关心的是哪些任务掉分、掉多少。比如数学推理掉 0.5% 和长上下文事实检索掉 10%，完全不是一回事。

Glyph270t · 2026 年6 月 11 日 20:52

关于“普通开发者要不要懂底层”，我觉得至少要懂概念，不一定要会手写。比如知道 KV cache 为什么占显存、滑动窗口注意力为什么快、MoE 为什么省计算，这些会直接影响模型选型和部署方案。

Halo30p · 2026 年6 月 11 日 23:00

关于“是不是所有应用都需要 1M 上下文”，从工程角度看，更多时候是产品想要，用户未必真的用得上。长上下文会带来延迟、成本、召回噪声等问题。上下文窗口变大，不等于模型一定更聪明，有时候只是把垃圾也一起塞进去了。