矩阵乘法新突破:RXTX算法助力XX^T运算性能提升5%

新算法RXTX助力XX^T矩阵乘法运算性能提升5%,由强化学习与组合优化技术驱动,有望显著降低能耗,但工程化应用仍面临挑战。

原文标题:矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%

原文作者:机器之心

冷月清谈:

深圳市大数据研究院和香港中文大学(深圳)的研究团队,针对XX^T这种特殊的矩阵乘法,提出了一种名为RXTX的新算法。该算法借助强化学习与组合优化,成功减少了5%的运算量,在能耗和时间上均有可观的节省。不仅如此,RXTX算法在小规模矩阵(如4x4)上的表现也优于传统算法。研究团队还对乘法运算量和总运算量进行了复杂度分析,结果表明RXTX算法在n≥256时,总运算量也优于现有方案,且有约5%的稳定提升。RXTX算法的核心技术是基于神经网络的大邻域搜索方法框架,是DeepMind的AlphaTensor方法的一种变体。虽然该成果已引发广泛关注,但算法的工程化应用仍面临硬件适配和内存管理等挑战,产业化落地仍需持续攻关。

怜星夜思:

1、文中提到的RXTX算法主要针对XX^T这种特殊矩阵乘法进行了优化,那么这种优化思路是否能推广到其他类型的矩阵乘法上?如果可以,会面临哪些挑战?
2、RXTX算法在小规模矩阵上已经超越了Strassen算法,那么在实际应用中,对于不同规模的矩阵,我们应该如何选择合适的矩阵乘法算法?有没有一个通用的选择标准?
3、文章提到RXTX算法的工程化应用仍面临挑战,特别是硬件适配和内存管理。大家觉得有哪些具体的工程难题需要解决?以及可以从哪些方面入手来克服这些难题?

原文内容


深圳市大数据研究院、香港中文大学(深圳)研究团队最新研究发现,图片 这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。



  • 论文标题:XXCan Be Faster

  • 论文链接:https://arxiv.org/abs/2505.09814


该成果在国际社交媒体平台 X 引发热烈讨论,并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。



背景

矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。自 1969 年 Strassen 算法横空出世以来,这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。


Google DeepMind 为此专门投入四年心血,先后推出 AlphaTensor、AlphaEvolve 等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从 9.58 秒推进到 9.57 秒——每个 0.01 秒的突破背后,都是对计算理论极限的重新定义。


图片(矩阵乘以自身的转置)这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中,实际应用包括:


  • 5G 与自动驾驶定制芯片设计
  • 线性回归与数据分析
  • 大语言模型训练算法(Muon、SOAP)

图片 这类操作每分钟在全球执行数万亿次,假如能减少该操作的计算量,对能耗开销可以带来相当可观的节省。令人惊讶的是,相比于普适的矩阵乘法 AB,研究者对于 图片 这类的特殊矩阵乘法的关注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了带有特殊结构的 AB 矩阵乘法,但他们尚未汇报任何关于 图片 的结果。


通过观察图片 运算的特殊结构,该团队发现 图片 的计算确实存在加速空间!


主要贡献

在 AI 技术的辅助下,研究团队发掘了新算法(RXTX),以让 图片 这一常见的底层操作减少 5% 的运算量,这可以进一步转换成节省 5% 的能耗以及时间(特别的,能耗开销主要由乘法运算数量决定)。值得一提的是,RXTX 的 5% 加速不仅对超大规模矩阵成立,对小规模矩阵也成立,比如:RXTX 对 4x4 矩阵 X 仅需 34 次乘法运算。此前最先进的 Strassen 算法需要 38 次乘法(减少 10% 运算量)。




乘法运算量复杂度分析

研究团队对乘法运算量的复杂度进行了分析。分析结果表明,RXTX 的渐进常数 26/41≈0.63,较先前最优值 2/3≈0.66 降低 5%。




总运算量(乘法+加法)复杂度分析

研究团队进一步提供了总运算量(乘法+加法)的复杂度分析。分析结果表明,当 n≥256 时,RXTX 的总加法与乘法次数也少于现有最优方案,且渐进意义下约有 5% 的稳定提升。




核心技术

该方法属于基于神经网络的大邻域搜索方法框架:


  • 利用强化学习策略生成候选双线性乘积
  • 构建组合问题一(MILP-A):将目标表达式构建为候选乘积的线性组合
  • 构建组合问题二(MILP-B):筛选能完整表达 图片 结果的最小乘积集


这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器,行动空间被缩小了一百万倍。以下为研究团队提供的 2*2 矩阵的简单例子:



总结

本文针对 图片 这类特殊矩阵乘法提出了创新性加速方法,通过引入 AI 方法设计出新型算法「RXTX」,成功实现了总运算量 5% 的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识,也为相关领域的算法优化提供了新的研究范式。


鉴于 图片 矩阵在多个学科领域的基础性作用,本研究成果有望为实际应用场景带来显著的能耗优化。然而,新算法的工程化应用仍面临硬件适配和内存管理等关键挑战,其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地,仍然面临诸多挑战,可谓任重道远。


参考资料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得可以参考数据库里的查询优化器思路。查询优化器会根据不同的数据分布、索引情况等选择最优的执行计划。矩阵乘法算法的选择也可以借鉴这种思想,构建一个“算法选择器”,根据矩阵的规模、硬件环境等信息,自动选择合适的算法。当然,这需要大量的实验数据和模型训练。

硬件适配是个大问题。不同的CPU、GPU架构对矩阵乘法的优化方式不同,需要针对不同的硬件平台进行定制。例如,GPU擅长并行计算,可以考虑将RXTX算法并行化;而针对CPU,则需要考虑缓存优化、指令集优化等。另外,我猜测新的算法可能会引入一些新的数据结构,这可能需要对现有的硬件架构进行改进。

除了硬件和内存,我觉得算法本身的优化也很重要。RXTX算法现在只是一个初步成果,可能还有很多优化的空间。例如,可以尝试使用更高效的数据结构、更精细的计算策略。另外,可以考虑将RXTX算法与其他优化技术结合使用,例如矩阵分解、稀疏矩阵优化等,进一步提升性能。

同意楼上的观点!推广的关键在于找到目标矩阵的“特殊性”。RXTX针对的是XX^T的对称性,其他矩阵可能具有稀疏性、循环性等。挑战在于,一是如何高效地识别这些特殊性,二是如何针对这些特殊性设计出有效的算法。感觉这需要数学、计算机科学和AI的交叉研究。

这个问题很有意思!理论上,可以根据矩阵的规模做一个benchmark测试,对比不同算法的实际运行时间,然后选择最优的。但实际情况可能更复杂,还要考虑硬件环境、内存限制等因素。此外,还有一些自适应算法,可以根据矩阵的规模动态选择合适的计算策略。

内存管理也很重要,特别是处理超大规模矩阵时。RXTX算法可能会增加额外的内存开销,需要仔细设计内存分配策略,避免内存泄漏。还可以考虑使用分块矩阵乘法,将大矩阵分解成小矩阵,分批进行计算,减少内存占用。另外,现在的NPU(神经网络处理器)发展迅速,针对RXTX算法设计专用NPU或许也是个方向。

个人认为,推广到任意矩阵乘法的可能性不大,至少目前的技术水平很难。XX^T这种形式的矩阵乘法存在内在的结构优势,可以利用这种结构进行优化。如果矩阵完全没有特殊性,那优化空间就很小了。也许未来的量子计算能提供新的思路?

我觉得推广到其他类型的矩阵乘法上是有潜力的。RXTX的核心在于发现了XX^T的特殊结构并加以利用,其他类型的矩阵如果也能找到类似的结构,就有机会进行优化。但问题在于,不同类型的矩阵结构差异很大,找到通用的优化方法难度很高,需要针对每种类型进行深入研究。

我记得以前看过一篇相关的论文,提到选择矩阵乘法算法要考虑矩阵的稠密度、硬件架构、以及对精度的要求。Strassen算法虽然理论复杂度低,但在小规模矩阵上常数项开销太大,反而不如直接计算。RXTX算法的优势在于小规模矩阵上的优化,所以也许可以根据矩阵规模设定一个阈值,超过阈值用Strassen,低于阈值用RXTX。