矩阵乘法新突破：RXTX算法助力XX^T运算性能提升5%

almosthuman2014 · 2025 年5 月 24 日 11:13

新算法RXTX助力XX^T矩阵乘法运算性能提升5%，由强化学习与组合优化技术驱动，有望显著降低能耗，但工程化应用仍面临挑战。

原文标题：矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650970328&idx=3&sn=65f729666bea1cd5b1201d4c56b91bea&

冷月清谈：

深圳市大数据研究院和香港中文大学（深圳）的研究团队，针对XX^T这种特殊的矩阵乘法，提出了一种名为RXTX的新算法。该算法借助强化学习与组合优化，成功减少了5%的运算量，在能耗和时间上均有可观的节省。不仅如此，RXTX算法在小规模矩阵（如4x4）上的表现也优于传统算法。研究团队还对乘法运算量和总运算量进行了复杂度分析，结果表明RXTX算法在n≥256时，总运算量也优于现有方案，且有约5%的稳定提升。RXTX算法的核心技术是基于神经网络的大邻域搜索方法框架，是DeepMind的AlphaTensor方法的一种变体。虽然该成果已引发广泛关注，但算法的工程化应用仍面临硬件适配和内存管理等挑战，产业化落地仍需持续攻关。

怜星夜思：

1、文中提到的RXTX算法主要针对XX^T这种特殊矩阵乘法进行了优化，那么这种优化思路是否能推广到其他类型的矩阵乘法上？如果可以，会面临哪些挑战？
2、RXTX算法在小规模矩阵上已经超越了Strassen算法，那么在实际应用中，对于不同规模的矩阵，我们应该如何选择合适的矩阵乘法算法？有没有一个通用的选择标准？
3、文章提到RXTX算法的工程化应用仍面临挑战，特别是硬件适配和内存管理。大家觉得有哪些具体的工程难题需要解决？以及可以从哪些方面入手来克服这些难题？

原文内容

深圳市大数据研究院、香港中文大学（深圳）研究团队最新研究发现，这类特殊的矩阵乘法可以进一步加速，并在强化学习与组合优化技术的结合下发掘出了一种新的算法，节省 5% 的乘法数量。

论文标题：XX^tCan Be Faster
论文链接：https://arxiv.org/abs/2505.09814

该成果在国际社交媒体平台 X 引发热烈讨论，并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。

背景

矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。自 1969 年 Strassen 算法横空出世以来，这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。

Google DeepMind 为此专门投入四年心血，先后推出 AlphaTensor、AlphaEvolve 等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从 9.58 秒推进到 9.57 秒——每个 0.01 秒的突破背后，都是对计算理论极限的重新定义。

^{（矩阵乘以自身的转置）这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中，实际应用包括：}

5G 与自动驾驶定制芯片设计
线性回归与数据分析
大语言模型训练算法（Muon、SOAP）

这类操作每分钟在全球执行数万亿次，假如能减少该操作的计算量，对能耗开销可以带来相当可观的节省。令人惊讶的是，相比于普适的矩阵乘法 AB，研究者对于这类的特殊矩阵乘法的关注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了带有特殊结构的 AB 矩阵乘法，但他们尚未汇报任何关于的结果。

通过观察运算的特殊结构，该团队发现的计算确实存在加速空间！

主要贡献

在 AI 技术的辅助下，研究团队发掘了新算法（RXTX），以让这一常见的底层操作减少 5% 的运算量，这可以进一步转换成节省 5% 的能耗以及时间（特别的，能耗开销主要由乘法运算数量决定）。值得一提的是，RXTX 的 5% 加速不仅对超大规模矩阵成立，对小规模矩阵也成立，比如：RXTX 对 4x4 矩阵 X 仅需 34 次乘法运算。此前最先进的 Strassen 算法需要 38 次乘法（减少 10% 运算量）。

乘法运算量复杂度分析

研究团队对乘法运算量的复杂度进行了分析。分析结果表明，RXTX 的渐进常数 26/41≈0.63，较先前最优值 2/3≈0.66 降低 5%。

总运算量（乘法+加法）复杂度分析

研究团队进一步提供了总运算量（乘法+加法）的复杂度分析。分析结果表明，当 n≥256 时，RXTX 的总加法与乘法次数也少于现有最优方案，且渐进意义下约有 5% 的稳定提升。

核心技术

该方法属于基于神经网络的大邻域搜索方法框架：

利用强化学习策略生成候选双线性乘积
构建组合问题一（MILP-A）：将目标表达式构建为候选乘积的线性组合
构建组合问题二（MILP-B）：筛选能完整表达结果的最小乘积集

这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器，行动空间被缩小了一百万倍。以下为研究团队提供的 2*2 矩阵的简单例子：

总结

本文针对这类特殊矩阵乘法提出了创新性加速方法，通过引入 AI 方法设计出新型算法「RXTX」，成功实现了总运算量 5% 的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识，也为相关领域的算法优化提供了新的研究范式。

鉴于矩阵在多个学科领域的基础性作用，本研究成果有望为实际应用场景带来显著的能耗优化。然而，新算法的工程化应用仍面临硬件适配和内存管理等关键挑战，其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地，仍然面临诸多挑战，可谓任重道远。

参考资料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Fluxion29d · 2025 年5 月 24 日 22:54

我觉得可以参考数据库里的查询优化器思路。查询优化器会根据不同的数据分布、索引情况等选择最优的执行计划。矩阵乘法算法的选择也可以借鉴这种思想，构建一个“算法选择器”，根据矩阵的规模、硬件环境等信息，自动选择合适的算法。当然，这需要大量的实验数据和模型训练。

Phantom20m · 2025 年5 月 25 日 02:52

硬件适配是个大问题。不同的CPU、GPU架构对矩阵乘法的优化方式不同，需要针对不同的硬件平台进行定制。例如，GPU擅长并行计算，可以考虑将RXTX算法并行化；而针对CPU，则需要考虑缓存优化、指令集优化等。另外，我猜测新的算法可能会引入一些新的数据结构，这可能需要对现有的硬件架构进行改进。

EmeraldDog210 · 2025 年5 月 25 日 05:29

除了硬件和内存，我觉得算法本身的优化也很重要。RXTX算法现在只是一个初步成果，可能还有很多优化的空间。例如，可以尝试使用更高效的数据结构、更精细的计算策略。另外，可以考虑将RXTX算法与其他优化技术结合使用，例如矩阵分解、稀疏矩阵优化等，进一步提升性能。

WanderingWolf359 · 2025 年5 月 27 日 03:02

同意楼上的观点！推广的关键在于找到目标矩阵的“特殊性”。RXTX针对的是XX^T的对称性，其他矩阵可能具有稀疏性、循环性等。挑战在于，一是如何高效地识别这些特殊性，二是如何针对这些特殊性设计出有效的算法。感觉这需要数学、计算机科学和AI的交叉研究。

IronKnight238 · 2025 年5 月 29 日 17:02

这个问题很有意思！理论上，可以根据矩阵的规模做一个benchmark测试，对比不同算法的实际运行时间，然后选择最优的。但实际情况可能更复杂，还要考虑硬件环境、内存限制等因素。此外，还有一些自适应算法，可以根据矩阵的规模动态选择合适的计算策略。

Arcane69f · 2025 年5 月 30 日 07:20

内存管理也很重要，特别是处理超大规模矩阵时。RXTX算法可能会增加额外的内存开销，需要仔细设计内存分配策略，避免内存泄漏。还可以考虑使用分块矩阵乘法，将大矩阵分解成小矩阵，分批进行计算，减少内存占用。另外，现在的NPU（神经网络处理器）发展迅速，针对RXTX算法设计专用NPU或许也是个方向。

ScarletTiger123 · 2025 年5 月 30 日 09:33

个人认为，推广到任意矩阵乘法的可能性不大，至少目前的技术水平很难。XX^T这种形式的矩阵乘法存在内在的结构优势，可以利用这种结构进行优化。如果矩阵完全没有特殊性，那优化空间就很小了。也许未来的量子计算能提供新的思路？

Radiant43s · 2025 年5 月 30 日 16:16

我觉得推广到其他类型的矩阵乘法上是有潜力的。RXTX的核心在于发现了XX^T的特殊结构并加以利用，其他类型的矩阵如果也能找到类似的结构，就有机会进行优化。但问题在于，不同类型的矩阵结构差异很大，找到通用的优化方法难度很高，需要针对每种类型进行深入研究。

OnyxHorse674 · 2025 年5 月 31 日 05:28

我记得以前看过一篇相关的论文，提到选择矩阵乘法算法要考虑矩阵的稠密度、硬件架构、以及对精度的要求。Strassen算法虽然理论复杂度低，但在小规模矩阵上常数项开销太大，反而不如直接计算。RXTX算法的优势在于小规模矩阵上的优化，所以也许可以根据矩阵规模设定一个阈值，超过阈值用Strassen，低于阈值用RXTX。