ARO优化器：微软提出新矩阵优化视角，训练提速显著

almosthuman2014 · 2026 年3 月 10 日 09:32

微软提出ARO优化器，通过动态旋转梯度，显著提升大模型训练效率。实验表明，相比AdamW，效率提升约1/3，并揭示了矩阵优化与模型对称性之间的联系。

原文标题：正交化之外是什么？微软等提出ARO优化器：训练提速1/3，揭示矩阵优化新「蓝海」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651020721&idx=2&sn=4bdc44d12da02e1c95a39584535ceb60&

冷月清谈：

微软研究院联合港中文（深圳）和威斯康星大学麦迪逊分校提出了新的优化器ARO，通过将梯度旋转作为第一原则，在旋转后的坐标系中最速下降，从而显著提升了大语言模型的训练效率。实验表明，ARO相较于AdamW提升约1/3的训练效率，比Muon还要高效10%～15%，并且在80亿参数规模下未见收益递减。论文还深入探讨了旋转的本质，提出了对称性假设，认为矩阵优化可能利用了大模型架构的对称性。基于对称性视角，研究团队进一步开发了跨层耦合等新特性，效果良好，为优化器设计提供了新的方向。

怜星夜思：

1、论文中提到ARO可以在全模型参数上进行优化，这对于实际应用来说有什么潜在的好处和挑战？
2、论文中提出的“对称性假设”很有意思，大家觉得除了ARO，这个假设还能启发我们设计出哪些新的优化策略？
3、ARO优化器在训练过程中对计算资源的额外开销控制在3%以内，这个比例是如何做到的？对于想要复现或者应用ARO的研究者来说，有哪些工程上的经验可以借鉴？

原文内容

如果你在过去一年关注过大模型训练的技术，大概率听过 Muon 这个名字 —— 这个在月之暗面 K2 模型的相关讨论中走红的优化器，被视为是可能挑战 Adam 的新秀。它的思路很直接：对动量矩阵进行正交化，让各个奇异方向上的更新速率一致，提升训练效率。

Muon 带动了基于正交化算法的改进热潮，但一个根本问题始终较少被讨论：正交化方法，究竟是通往高效训练的必经之路，还是某个更深层原则的一个特例？我们是否能跳出 “正交化” 这个框，找到矩阵优化算法的新 “蓝海”？

微软研究院联合港中文（深圳）、威斯康星大学麦迪逊分校最新放出的长篇论文，从方法论创新、工程验证到理论诠释，给出了肯定的答案。

团队首先将现有常用矩阵优化器统一到基于旋转的视角 —— 在旋转后的坐标系中最速下降。
论文把 “梯度旋转” 作为第一原则，让旋转策略动态地提升最速下降的速率，推导出一类新的优化器：ARO（自适应旋转优化，Adaptively Rotated Optimization）。Muon 可被视为 ARO 的一个特例。
通过严格控制的大规模训练， ARO 将大语言模型的训练效率相对 AdamW 提升了约 1/3（额外时间开销压在 3% 以内），比 Muon 还要高效 10%～15%，且在最多 80 亿参数、多倍过训练的压力测试下，未出现收益递减迹象。
最后，论文还进一步探究更深层问题：为什么旋转是本质的？首先，他们通过理论分析，提出了对称性假设 —— 即旋转 / 乃至矩阵优化，本质上可能是利用了大模型架构丰富的对称性；而 ARO 的旋转策略则进一步利用了这种 “红利”，在收敛效率与鲁棒性之间取得了更好的权衡。作者将对称性观点反馈在 ARO 完善上，进一步开发跨层耦合等新特性，取得良好效果。

论文标题：ARO: A New Lens On Matrix Optimization For Large Models
论文地址：https://arxiv.org/abs/2602.09006
作者：Wenbo Gong, Javier Zazo, Qijun Luo, Puqian Wang, James Hensman, Chao Ma
机构：微软研究院，香港中文大学（深圳），威斯康星大学麦迪逊分校

旋转：更一般的优化框架

论文指出，如果把 Muon、SOAP、SPlus、Galore 等常见矩阵优化方法进行简化和抽象，它们本质上都是在一个被旋转后的坐标系中，使用 Adam 或者变体进行模型优化。它们先找到一个旋转矩阵 R，把梯度 G 旋转到新的坐标系下；用某个基座优化器 f 计算单步更新量；最后，将该更新量旋转回原来的坐标。这个过程可以写成：

对于旋转 R，上述方法无一例外取为梯度内积矩阵的特征向量（后文简称为特征旋转）。同时，它们将基座优化器设定为 Adam 或其变体。而 Muon 的正交化，则是使用特定 Adam 变体的一个特例。这表明梯度旋转有潜力成为比正交化更加一般的优化框架。

ARO 优化器：将梯度旋转作为第一原则

论文提出将旋转最速下降提升到设计优化器的新原则，从而可以考虑更一般的旋转 R，和更广泛的基座优化器 f。能不能让这两个部分有机地联动起来，去优化一个具体的训练效率指标，例如模型训练损失的下降速度？

论文提出：给定一般的基座优化器 f，我们可以近似地求解旋转 R，使旋转更新下的训练损失下降速率得以提升。于是，我们推导出 ARO 的更新规则：

（其中 M 是动量）

它的直觉很简单：ARO 是在拿上一轮旋转后的基座优化器更新量，寻找新的旋转去大概 “对齐” 原始的梯度动量。换句话说，ARO 在主动地去寻找一个能让当前优化器 f 发挥得更好的旋转角度。实验发现（图 1），用 ARO 的更新方向，比基于传统特征旋转的更新，能带来更优的瞬时损失下降率 —— 该优势在整个训练过程中持续存在。

严格控制的实验准则：为了结论的可靠性，论文给自己加了道槛

优化器评估常面临一个痛点：在研究级场景下所得出的结论，很难迁移到实际场景。原因可能在于基准设置中的一些实验准则未与真实环境对齐，导致指导性有限。

对此，论文规定了一套实验准则：从混合精度选取、学习率衰减、非隐层优化器统一、到学习率迁移策略等环节都进行去偏控制；并尽可能采用大的 batch size（最高 1400 万）、长的序列长度（最高 4K），足够大的模型规模（最高 80 亿）和训练预算（最高 8 倍过训练），尽可能贴近真实训练场景；在可行的情况下对 AdamW 基线进行端到端调参，避免用外推法估算超参。在这种规范下，论文得出的加速率较为温和，但在跨尺度测试下却更加一致、更可迁移。

大规模实验：显著、稳定、一致的效率提升

在以上原则下，评估分为两部分。

小规模验证（1 亿 - 15 亿参数 GPT）中，ARO 的旋转策略在多种基座优化器下均展现出普适性提升。横向对比无旋转和传统特征旋转版本，以及横向对比 AdamW 和正交化方法，全部表现更优（图 2）。这也侧面说明，梯度旋转是一个非常关键的设计维度。

规模化实验将 ARO 推向更大场景：架构覆盖稠密和 MoE，规模从 3 亿延伸至 80 亿激活参数，训练预算拉到 1-8 倍 Chinchilla 过训练。结果显示（图 3），ARO 对 AdamW 保持约 1.3-1.35 倍加速，对 Muon 等正交化方法保持约 1.1-1.15 倍加速，且加速比在更大规模、更长周期下未见衰减。同时，作者通过工程优化使得 ARO 在大规模分布训练下的额外开销相比 AdamW 控制在 3% 以内。

一个有趣的 “副产物”：全模型优化

在主流的矩阵优化器实践策略中，它们通常只用在隐藏层上 ——embedding 和 LM head 等参数还得靠 AdamW 来管。这被称为 “混合 / 分治模式”。其中一个原因是当其被直接用到上述参数上，可能会导致训练显著变差，甚至不收敛。而 ARO 路线下一个新的 “副产物” 是：它可以在全模型参数上跑通。

论文在 Sigma-MoE-2B 里对比了几种设置：混合（ARO 只优化隐藏层）、全模型（ARO 优化所有矩阵参数）。结果表明（图 4），全模型模式的 ARO 在训练后期（3 倍 - 4 倍过训练之后）反而比混合模式效果更好。

这意味着 ARO 原则上能够从旋转的角度，统一地处理全模型的矩阵参数 —— 这也一定程度上挑战了当前矩阵优化器较为流行的 “分而治之” 的设计理念。

为什么旋转是本质的？一个更底层的视角：对称性

接下来，论文进一步探究更深层的问题：为什么旋转原则 “恰好” 隐藏在诸多矩阵优化器的设计中？论文的拓展讨论指向了一个概念：神经网络的参数对称性。

微软团队在此前的工作（SliceGPT）中提出过一个定理：Transformer 存在丰富的残差流对称性 —— 在特定约束下将参数同时旋转，模型的输出不变。这意味着参数空间中存在连续区域，其中所有点对应同一函数。

与传统优化器相比，ARO 在这片区域里多了一个可操作的自由度：论文证明，ARO 理论上等价于非欧几何下的对称瞬移（Symmetry Teleportation）—— 一类利用对称性信息加速收敛的经典算法。即，在不改变损失的前提下，ARO 将参数 “瞬移” 到群轨道中另一个更利于优化的位置，再迈出下一步。

论文进一步分析了 ARO 是如何利用这种自由度的。传统对称瞬移追求瞬时收敛速率的最大化，但这在实际当中并不总能取得实际收益。对此，论文主要理论证明了两个结论：1. 随机梯度下大幅提高瞬时速率可能会导致损失下降不稳定；2. 而 Muon/SOAP 等使用的特征旋转则是另一个极端，最大化稳定性但同时会削弱下降速率，取向于保守。ARO 的实现则采取了一种温和的部分提升策略，在提升下降率的同时维持稳定性，在收敛效率与鲁棒性之间取得了更好的权衡。

这个视角下，ARO 不再是单纯的矩阵运算技巧，而是利用架构固有对称性的自然产物。论文将这一观察一般化为 “对称性假设”：已知的矩阵优化器之所以有效，可能是无意中利用了损失景观中的对称性。

通过对称性视角，进一步解锁优化 “新姿势”

对称性视角不仅是对于优化的新诠释，也进一步为 ARO 解锁了 “新姿势”。例如：

残差流对称性自然地包含了 embedding 和 lm head—— 二者在对称性的语义下与隐含层并无本质不同。因此，在对称性视角下，ARO 可用于全模型优化上，这与大规模实验中的观测吻合。
对称性关系揭示了跨层、跨模块之间的耦合约束。例如，受同一段残差流支配的矩阵（如某一层的 QKV 和上一层的输出投影）理当绑定同一个旋转。这提供了一种经济利用跨层相关性的途径 —— 不是通过暴力计算全局二阶矩，而是通过架构自身的耦合关系绑定旋转。在小规模模型上初步验证：跨层绑定旋转不仅能降低计算开销，还显著提升了优化性能。

写在最后

回过头看，ARO 的贡献可以分为三部分：把 “旋转” 从既有优化器的隐含设计里提炼为第一原则；通过严格的规模化实验证明其有效性；用架构本身的全局性质为矩阵优化提供新的诠释，并衍生出新的耦合设计。如果说 Muon 优化器是从 “向量到矩阵的本质跨越”，那么 ARO 则指向一个新的可能：从 “矩阵优化” 走向 “全模型耦合优化”—— 优化器的设计，也许应该和架构绑得更紧一些。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

SummerSun956 · 2026 年3 月 11 日 04:18

我觉得需要关注的是ARO的鲁棒性。虽然论文里说ARO在收敛效率和鲁棒性之间取得了平衡，但实际应用中，模型和数据的多样性远超实验环境。如果ARO对某些特定类型的数据或模型表现不佳，那就需要仔细分析原因，并进行针对性的改进。

TwilightPeacock415 · 2026 年3 月 11 日 05:32

对称性假设让我想到了物理学中的规范场论。在规范场论中，物理定律在规范变换下保持不变，这和模型的对称性非常相似。也许我们可以借鉴规范场论的思想，设计出一种更强大的优化器，它能够自动地发现和利用模型中的对称性，从而实现更高效的训练。

GoldenEagle888 · 2026 年3 月 12 日 14:56

任何新优化器都有trade-off。ARO引入了旋转操作，计算复杂度应该会比AdamW高一些，虽然论文里说额外开销控制在3%以内，但实际应用中还要看具体情况。另外，ARO的超参数可能也需要重新调整，才能达到最佳效果。总的来说，要想真正落地，还需要更多的工程优化和实践检验。

Beacon26j · 2026 年3 月 12 日 19:54

我觉得可以从两个角度看，一是ARO目前表现好，不代表所有模型和任务都适用，二是即使可以全模型优化，但差异化优化如果能带来显著收益，依然有价值。现在下定论说不需要差异化优化还为时过早。

Torrent81h · 2026 年3 月 12 日 21:47

全模型优化是个趋势，但“各司其职”的优化方案在可预见的未来仍然有存在的意义。现在深度学习模型越来越大，结构越来越复杂，不同模块之间的差异也很大。针对不同模块的特点进行优化，可以更精细地控制训练过程，避免“一刀切”可能带来的问题。当然，这也需要更多的研究和实验来验证。

ShimmeringSeal612 · 2026 年3 月 14 日 02:08

这倒不一定，ARO在全模型优化上的成功，可能只是因为它更好地利用了模型整体的对称性。针对特定层或参数的差异化优化，如果能更精细地匹配它们的特性，理论上还是可以带来额外收益的。关键在于找到合适的差异化策略，并且确保它不会破坏模型整体的平衡。

Blaze03m · 2026 年3 月 14 日 14:54

对称性假设启发我们，在设计优化器时，要更多地关注模型架构本身的特性，而不是仅仅关注梯度。例如，可以探索如何利用模型的其他对称性（除了残差流对称性），或者如何让优化器更好地适应不同类型的对称性。另外，还可以尝试将对称性信息融入到优化器的其他模块中，例如学习率调整、动量估计等。

SilverWolf359 · 2026 年3 月 17 日 19:50

从一个码农的角度来说，如果ARO能集成到常用的深度学习框架中，使用起来足够方便，那我就愿意尝试。毕竟’天下苦调参久矣’，能自动提升性能，减少人工干预，就是好的优化器。但如果需要手动修改代码，或者引入大量新的依赖，那就要慎重考虑了(手动狗头)。

Mystic98x · 2026 年3 月 18 日 03:45

有没有人想到GAN (对抗生成网络)的？GAN训练不好的时候经常出现模式崩塌，生成一堆重复的东西。这背后是不是也和模型参数的某种对称性有关？也许可以尝试从对称性的角度来理解和改进GAN的训练。

Glimmer58a · 2026 年3 月 18 日 09:09

从玄学的角度来说，这就像中医和西医的区别。分而治之就像西医，哪里有问题治哪里，见效快但可能治标不治本。统一优化就像中医，讲究整体调理，效果慢但可能更持久。大模型训练也是如此，短期内混合模式可能更容易看到效果，但长期来看，统一优化可能更有潜力挖掘模型的全部潜力 (手动狗头保命)。

LuckyRabbit007 · 2026 年3 月 19 日 02:41

我认为这主要取决于性价比。如果算力资源本身就很昂贵，例如使用了大量的GPU，那么即使增加一点开销，只要能显著减少GPU的使用时间，最终的总成本仍然可能降低。但如果算力资源相对廉价，而模型需要快速迭代，那么过高的开销可能会降低迭代效率。比如一些toB的项目，在交付前可能需要进行一轮微调，如果微调时间过长也会影响交付的质量。

Nexus38d · 2026 年3 月 19 日 22:38

参数对称性让我想起了模型压缩和知识蒸馏。如果模型存在大量对称性，那么或许可以通过某种方式将参数进行等效变换，减少模型的大小，同时保持模型的性能。另外，在物理学中，对称性也是一个非常重要的概念，例如在量子力学中，对称性与守恒定律密切相关。不知道是否可以将物理学中的对称性理论应用到深度学习中。

StormyRaven098 · 2026 年3 月 21 日 19:15

我感觉好处很明显，简化了优化流程，不需要分别对不同层设置不同的优化器。挑战可能在于如何保证所有层参数的稳定性和收敛速度，毕竟不同层的特性可能差异很大。

QuietKoala728 · 2026 年3 月 23 日 02:59

“对称性假设”打开了新世界的大门！我觉得可以尝试从模型架构层面入手，设计对对称性更敏感的优化器。例如，可以研究如何利用对称性来缓解梯度消失或爆炸问题，或者设计能自动探索参数空间中对称区域的算法。

Phantom20m · 2026 年3 月 24 日 04:52

全模型优化确实吸引人，不用再搞“分而治之”那一套了。但实际操作中，embedding和LM head这些层的梯度特性可能跟隐藏层差异很大，统一优化会不会导致这些层训练不稳定？感觉需要更精细的控制。

DancingFrog182 · 2026 年3 月 24 日 05:43

3%的额外开销控制确实很厉害。个人猜测可能主要是在旋转矩阵的计算和更新上做了优化。比如，可以尝试使用低精度计算，或者利用稀疏矩阵运算来加速。此外，高效的并行计算也是关键。

Zen15e · 2026 年3 月 25 日 03:05

统一优化是趋势！想象一下，如果能找到一种通用的优化策略，那模型部署和调参就简单多了。挑战肯定有，比如不同层之间的学习率协调问题，搞不好某些层就直接躺平不更新了。

RadiantButterfly764 · 2026 年3 月 25 日 14:47

这个“对称性假设”让我想到了物理学中的Noether定理，对称性对应着守恒量。在优化中，是不是可以考虑设计一些“守恒”特定对称性的优化器，避免在训练过程中破坏模型的重要结构？

FieryPhoenix505 · 2026 年3 月 25 日 19:15

阅读源码是关键！如果开源了，一定要仔细研究ARO的代码实现，特别是关于矩阵运算的部分。另外，可以关注一下论文中提到的工程优化细节，比如如何减少数据传输，如何高效利用GPU资源。