无需重新训练！MHA2MLA 助力任意大模型轻松迁移至 DeepSeek 架构

almosthuman2014 · 2025 年3 月 6 日 20:23

MHA2MLA 框架助力任意大模型轻松迁移至 DeepSeek 的 MLA 架构，显著降低推理成本，无需重新训练。

原文标题：DeepSeek的MLA，任意大模型都能轻松迁移了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650958271&idx=1&sn=88ba4bb4a48d2d69f4a2bf36c197cb77&

冷月清谈：

复旦大学自然语言处理实验室等机构联合发布了 MHA2MLA 框架，可以将任何基于 MHA/GQA 架构的大语言模型（LLM）高效迁移到 DeepSeek 的多头潜在注意力（MLA）架构，而无需重新训练。MLA 架构的核心优势在于通过低秩压缩键值缓存，显著降低推理成本。

MHA2MLA 的核心步骤包括：
1. 部分 RoPE 保留（Partial-RoPE）：分离位置编码相关和无关的表示，并将位置编码相关的键向量与 MLA 对齐。
2. 键值联合表示低秩近似（Low-rank Approximation）：将值的变换矩阵和位置编码无关的键的变换矩阵拼接后进行 SVD 分解，得到降维和升维变换矩阵，并将中间的键值联合低秩表示与 MLA 对齐。

实验结果显示，使用少量预训练数据（0.3% 至 0.6%）进行微调即可弥补架构迁移带来的性能损失。MHA2MLA 还可与其他高效推理技术（如 4-bit KV 缓存量化）结合使用，进一步降低推理成本。例如，Llama2-7B 在减少 92.19% KV 缓存的同时，LongBench 性能仅下降 0.5%。

怜星夜思：

1、MHA2MLA 主要解决了 MHA 和 MLA 架构之间的哪些差异？这些差异对模型性能的影响是什么？
2、Partial-RoPE 中提到的四种移除 RoPE 的策略各有什么优缺点？为什么最终选择了 S_{2-norm} 策略？
3、MHA2MLA 如何与其他模型压缩技术（如量化）结合使用？这种结合能带来哪些好处？

原文内容

复旦 NLP 实验室博士后纪焘是这篇文章的第一作者，研究方向为大模型高效推理、多模态大模型，近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi，发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。

DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界，特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络（Multi-head Latent Attention, MLA）是其经济推理架构的核心之一，通过对键值缓存进行低秩压缩，显著降低推理成本 [1]。

然而，现有主流大模型仍然基于标准注意力架构及其变种（e.g., MHA, GQA, MQA），推理成本相比 MLA 呈现显著劣势。使预训练的任意 LLMs 快速迁移至 MLA 架构而无需从头预训练，这既有重大意义又具有挑战性。

复旦 NLP 实验室、华东师大、上海 AI Lab、海康威视联合提出 MHA2MLA 框架，通过部分 RoPE 保留（Partial-RoPE）和键值联合表示低秩近似（Low-rank Approximation）两个关键步骤，成功将任意 MHA/GQA 架构迁移到 MLA。

目前，MHA2MLA 已位列🚀alphaXiv 热度榜🔥

复旦 NLP 实验室博士后纪焘为第一作者，副研究员桂韬为通讯作者。

论文标题：Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs
论文链接：https://arxiv.org/abs/2502.14837
开源代码：https://github.com/JT-Ushio/MHA2MLA

论文概览

本文聚焦如何将预训练的基于 MHA/GQA 的大语言模型高效迁移到 DeepSeek 提出的经济推理架构 —— 多头潜在注意力（MLA）。

MHA 与 MLA 在多处存在差异，使得 MHA2MLA 极具挑战：

位置编码不同：MHA 采用全维度位置编码（PE），MLA 仅少量维度采用 PE，剩余维度则 PE 无关
缓存对象不同：MHA 缓存分离的键向量及值向量，MLA 缓存带 PE 的键向量及 PE 无关的键值联合低维表示向量
参数矩阵不同：MHA 包含查询、键、值三个线性变换矩阵，MLA 则更加复杂、多达七个目的不同的线性变换矩阵
运算形式不同：MHA 的运算受限于访存瓶颈，MLA 则能通过矩阵吸收等优化实现更高的访存效率

本文提出的 MHA2MLA 为了最大化利用 MHA 预训练参数矩阵并对齐 MLA 的缓存对象和运算形式，首先通过部分 RoPE 保留（Partial-RoPE）分离出 PE 相关表示（少量维度，如 1/8）和 PE 无关表示（大量维度），其中 PE 相关的键向量对齐 MLA。其次拼接值的变换矩阵（W_v）和 PE 无关的键的变换矩阵（W_{k, nope}），并进行 SVD 分解得到降维变换矩阵和升维变化矩阵，中间的键值联合低秩表示对齐 MLA，完成了缓存对象的对齐以及运算形式的对齐。

在 135M~7B 上的实验表明，仅需使用预训练数据的 0.3% 到 0.6% 进行高效微调，即可基本还原架构迁移带来的性能损失。并且 MHA2MLA 还能结合其他高效推理技术，例如结合 4-bit KV 缓存量化，Llama2-7B 减少了 92.19% KV 缓存，而 LongBench 上的性能仅下降 0.5%。

部分 RoPE 保留（Partial-RoPE）

为了实现从标准的 MHA（多头注意力机制）到 MLA（多头潜在注意力机制）的迁移，作者提出了部分 RoPE 微调（partial-RoPE finetuning）策略，该策略通过从大量维度中移除 RoPE（旋转位置编码）并将其转换为 NoPE（无位置编码）来解决 MLA 和 RoPE 冲突的问题。

作者主要尝试了四种移除 RoPE 的策略：1）保留高频位置信息 S_high，该方法最简单直接，保留了局部语义特征相关的高频特征 [2]；2）保留低频位置信息 S_low，与保留高频位置信息的策略形成对比，检验低频成分在语义理解任务中的潜在作用；3）均匀采样策略 S_uniform，等间隔均匀采样频率保留位置频率；4）使用查询、键向量范数乘积 (2-norm) 近似注意力贡献值 [2] 的筛选策略 S_{2-norm}，针对每个注意力头，计算所有频率的平均 2-norm 分数，随后选择得分较高的频率保留位置信息。该策略能自适应识别对模型性能关键的特征频率。

Partial-RoPE 的消融实验表明：1）保留低频位置信息的 S_low 导致了最大的性能损失，保留高频位置信息的 S_high 导致的性能损失明显小于保留低频，说明了高频维度的重要性；2）S_uniform 和 S_{2-norm} 均展现出更优的性能，分别在 135M 模型和 1.7B 模型上取得了最少的性能损失。最终作者选择 S_{2-norm} 作为默认配置，是因为注意力贡献分数较低的维度在结合低秩近似时损失更少。

键值联合表示低秩近似

移除了大量维度的 RoPE 之后，MHA2MLA 就可以对值向量和 PE 无关的键向量进行低秩近似，从而大幅减少缓存空间。为最大化保留预训练知识，本文提出两种基于奇异值分解 (SVD) 的投影矩阵初始化策略：1）SVD_split，分别对矩阵进行低秩分解，保持各自的表征特性；2）SVD_joint，考虑键值矩阵之间的关联性，参数矩阵拼接后整体进行低秩分解。

消融实验表明：无论是在 GQA 基座还是 MHA 基座上，SVD_joint 方法始终优于 SVD_split 方法。

实验结果

作者在多种规模的语言模型（SmolLM-135M/360M/1B7 和 Llama2-7B）以及不同压缩比例的配置下评估了所提出的方法。实验表明：1）相同微调设置下，压缩比例越高，性能损失越大，特别是对于两个 GQA 模型；2）相同压缩比例下，原始模型参数越多，性能损失越小，揭示了 MHA2MLA 的潜在 scaling law。3）MHA2MLA 的微调数据量仅需预训练数据的 0.3%~0.6%，避免了从头预训练 MLA 模型的高昂成本。

作者在 LongBench 长文本生成任务中评估了结构迁移后的 Llama2-7B 模型，将 KV 缓存量化作为基准对比方案。实验表明，MHA2MLA 能在 d_{kv}=16 的情况下实现与 2-bit 量化相同的压缩比例（87.5%），同时仅损失一半的性能（-3.0% vs. -6.2%）；进一步结合 4-bit 量化后，不仅压缩比例超过 2-bit 量化，性能损失也都优于所有 2-bit 的基线方法，例如 92.19% 压缩比例仅掉 0.5%，96.87% 压缩比例仅掉 3.2%，证明了 MHA2MLA 能显著减少推理时的访存瓶颈。

总结与展望

本文主要研究如何将基于 MHA 的预训练 LLMs（或其变体）适配为 KV 缓存高效的 MLA 架构，以显著降低推理时的访存瓶颈。通过精心的架构设计，MHA2MLA 仅需 0.3% 至 0.6% 预训练数据。该框架展现了与现有压缩技术的强兼容性，同时保持了常识推理和长上下文处理能力，为部署资源高效的 LLMs 提供了一条实用路径。

作者提到该研究受限于硬件条件，当前实验未能覆盖 Llama3 等需 128K 长上下文微调的模型，也未突破 7B 参数规模的验证瓶颈。扩展至更多的基座将作为未来工作之一。作者还计划结合参数高效微调策略，进一步降低架构迁移过程中的参数更新规模。

参考文献：

[1] DeepSeek-AI, Aixin Liu, Bei Feng et al.DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. ArXiv preprint.

[2] Federico Barbero, Alex Vitvitskyi, Christos Perivolaropoulos, Razvan Pascanu, Petar Veličković. Round and Round We Go! What makes Rotary Positional Encodings useful? CoRR 2024

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Caliber237r · 2025 年3 月 7 日 07:12

可以这么想，MHA 像一个精装修的房子，啥都有，但是搬家费很高。MLA 像一个拎包入住的公寓，东西少，搬家方便，但是有些功能需要自己添置。MHA2MLA 就像一个搬家公司，帮你把精装修房子里的东西打包压缩，然后适配到公寓里，这样既省钱又省力。

PolishedStone452 · 2025 年3 月 7 日 21:22

我理解的关键差异在于位置编码的处理方式和缓存机制。MHA 使用全维度位置编码，而 MLA 只在少量维度上使用。缓存方面，MHA 缓存键和值向量，MLA 缓存的是键向量和键值联合低维表示。参数矩阵和运算形式的差异也需要考虑。这些差异都会影响推理效率和最终性能，MHA2MLA 就是为了解决这些问题而设计的。

Mystic98x · 2025 年3 月 7 日 21:55

MHA2MLA 可以与量化技术结合使用，进一步降低模型大小和推理成本。例如，与 4-bit 量化结合，可以在大幅压缩模型的同时，将性能损失控制在很小的范围内，这对于资源受限的场景非常有价值。

CoastalHeron339 · 2025 年3 月 12 日 23:29

MHA2MLA 主要解决了 MHA 和 MLA 在位置编码、缓存对象、参数矩阵和运算形式上的差异。这些差异会导致直接迁移模型性能下降，因为 MLA 的设计初衷就是为了降低推理成本，它对缓存机制做了优化，和MHA的直接兼容性不好。MHA2MLA 通过 Partial-RoPE 和低秩近似等技术手段弥合了这些差异，使得模型能够高效迁移。

Haven14j · 2025 年3 月 12 日 04:45

文中提到的 Llama2-7B 的实验结果就证明了这一点，结合 4-bit 量化后，压缩比例超过 90%，但性能下降却很小，这说明 MHA2MLA 与量化技术有很好的兼容性，可以实现 1+1>2 的效果。

SapphireCat928 · 2025 年3 月 10 日 23:29

就像压缩文件一样，MHA2MLA 负责整理和打包，量化技术负责压缩编码，两者结合可以实现更高的压缩率，同时尽可能保留文件内容。

QuietKoala728 · 2025 年3 月 12 日 12:25

S_high 保留高频信息，实现简单，但可能丢失一些全局信息； S_low 保留低频信息，丢失局部信息，性能损失最大；S_uniform 均匀采样，更均衡，但不如 S_{2-norm} 灵活； S_{2-norm} 根据注意力贡献值自适应选择，效果最好，因为它能更好地保留对模型重要的信息。

Valor47z · 2025 年3 月 12 日 04:20

选择 S_{2-norm} 的原因在于它能够根据注意力贡献值动态调整，保留重要的位置信息，丢弃不重要的，这样在进行低秩近似时损失更小，从而在性能和效率之间取得更好的平衡。

SummerSun956 · 2025 年3 月 9 日 22:41

就好比整理行李，S_high 是只带必需品，S_low 是只带纪念品，S_uniform 是平均分配空间，S_{2-norm} 是根据目的地和行程安排来决定带什么，显然更合理。