从逻辑门到脉动阵列:为什么AI算力会分化出GPU、TPU、FPGA与“大脑”路线

大模型算力瓶颈不只在算法,更在逻辑门、数据搬运、时钟与芯片物理结构。

原文标题:面对相同的物理法则,GPU、FPGA与碳基大脑为何走向不同分支?

原文作者:机器之心

冷月清谈:

文章围绕 MatX 联合创始人 Reiner Pope 的观点,解释大模型训练与推理中的算力瓶颈并不只是算法问题,而是深受芯片物理结构限制。大语言模型的核心计算是矩阵乘法,工程上会被拆解为大量“乘加运算”,其效率取决于逻辑门、全加器、数据通路和物理布线等底层设计。文章重点说明了低精度计算的价值:从 FP8 降到 FP4,计算元件需求会呈二次方缩减,因此能在有限面积和功耗下显著提升吞吐。与此同时,传统 GPU/CPU 在矩阵计算中常被数据搬运拖累,通信开销甚至超过计算本身。为解决这一问题,Tensor Core、脉动阵列等架构通过让权重驻留、复用数据、固化循环结构来提高计算与通信比例。文章还进一步讨论了全局时钟、频率提升、硅基芯片与碳基大脑计算路径差异等问题,用物理约束解释为何不同算力需求会催生 GPU、TPU、FPGA 等不同硬件分支。

怜星夜思:

1、如果低精度计算能显著提升AI芯片效率,那未来大模型会不会越来越依赖FP4甚至更低精度?
2、文章提到数据搬运成本可能比计算本身还高,这是不是意味着未来AI芯片竞争的核心不再是算力峰值?
3、GPU、TPU、FPGA这些硬件路线都在解决不同问题,普通开发者需要理解它们的底层差异吗?
4、把硅基芯片和碳基大脑放在一起比较有意义吗?大脑真的能给AI硬件设计带来启发吗?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。


当前大语言模型的参数规模呈现增长趋势,但在硬件推理与训练阶段,单纯依赖数学算法优化难以克服底层的物理算力瓶颈。相比传统软件,AI 加速器的处理效率受制于晶体管的排布与数据搬运的物理开销。基于此,MatX 联合创始人 Reiner Pope 指出,大模型中密集的矩阵乘法受限于逻辑门物理组合及全局时钟频率,并在近期的一场对话中剖析了不同的算力需求为何催生出 GPU、TPU 与 FPGA 等不同的硬件分支。


目录

01. 为什么「乘加运算」是硬件设计的关键? 

逻辑门如何制约 AI 芯片底层的算力极限?数据搬运成本超载如何阻碍传统架构的吞吐量提升?...
02. 为何追求高时钟频率反而会限制芯片的算力极限?
低精度算术带来的二次方缩放如何帮助芯片突破面积瓶颈?脉动阵列如何通过固化循环重塑计算与通信的物理比例?...
03. 硅基芯片与碳基大脑在计算路径上存在哪些差异? 
全局时钟在同步千亿晶体管时如何避免制造公差带来的数据混淆?为什么时钟频率的提升反而会压缩运算模块的物理空间?...


为什么「乘加运算」是硬件设计的关键? 

1、近日,前 Google 大模型基础设施团队成员、现 MatX 联合创始人 Reiner Pope 围绕为什么不同的算力需求会催生出不同的芯片,从逻辑门出发,推演了芯片的运作原理。

① MatX 是 Reiner Pope 2022 年末成立的 AI 芯片初创公司,核心业务是研发用于训练和推理大规模 AI 模型的底层处理器芯片,其联合创始人 Mike Gunter 是 Google TPU 的创造者之一,曾在六个不同的行业领域主导设计或架构过 11 款商业芯片。

② MatX 推出了名为 「MatX One」 的旗舰 AI 处理器,该芯片在训练大模型时的运算速度预期比 NVIDIA 竞品快 10 倍,且近期获得了由 Jane Street 领投的 5 亿美元 B 轮融资。

2、Reiner Pope 提出,大语言模型中密集的矩阵乘法并非抽象的数学推演,而是受制于逻辑门(如与门、或门、非门)的排布逻辑,

① 芯片底层的逻辑门通过金属迹线在物理层面连接,构成了算力的物质基础。

② 针对大模型推理与训练中的矩阵运算,工业界将其拆解为基础的「乘加运算」,该工程设计的目的在于直接利用物理电路去匹配矩阵运算中嵌套循环的数学特性。 

3、为解决运算中误差累积的痛点,Reiner Pope 阐明了 AI 芯片采用非对称精度计算,如 4 位乘法配合 8 位加法,这是因为累加阶段误差会随迭代快速累积,而乘法阶段无长期误差问题。

① Reiner Pope 指出,矩阵乘法本质上是对大量乘积进行求和,在累加阶段,舍误差会随着迭代次数持续叠加,而单一的乘法步骤中较少涉及长期的误差积累。

4、在阐述算术原理之后, Reiner Pope 解释了乘加运算是如何在硬件层面通过逻辑门来实现的。他以 Dadda 乘法器架构为例,解释了芯片如何通过反复应用全加器进行数据列的物理压缩,直至输出最终结果。

① 在物理电路上,生成 p 位与 q 位的部分乘积需要消耗 p * q 个「与门」来进行位运算。 

② 负责求和的基础组件「全加器(full adder)」,在工程上被称为 3→2 压缩器,用于将三个同位宽的单比特输入相加并压缩为两比特输出。 

③ Reiner Pope 补充道,整个运算过程中所消耗的全加器数量,同样与乘数位宽呈现出 p * q 的物理比例关系。 

5、为了阐明低精度算术在深度学习中具备较高的工程效率,Reiner Pope 基于全加器数量的推演指出,降低数据位宽,如从 FP8 降至 FP4,所需的物理计算元件缩减并非线性,而是呈二次方关系。 

① 二次方缩放关系使得芯片能够在有限的晶体管和功耗预算内,实现计算密度的非线性增长

6、在此基础上,Reiner Pope 补充了不同精度的计算单元通常无法互换,芯片设计者须针对客户需求为不同精度的单元分配固定的物理面积。Reiner Pope 以 NVIDIA 为例,说明 B300 及之后的架构充分利用了二次方缩放优势,使 FP4 的处理速度达到了 FP8 的 3 倍。

7、Reiner Pope 回顾了引入 Tensor Core 之前的 GPU 或 CPU 等传统架构,指出其在执行矩阵计算时面临的物理瓶颈,并阐明了孤立运算单元在内部通信上的电路成本远超数学计算本身。

① 在传统的指令执行流程中,单个乘加单元需通过多路复用器(Mux)从寄存器文件读取输入数据。 

② 构建这一数据读取通路所需的逻辑门(如与门和或门)占据了较大的物理面积。推演显示,数据移动消耗了 24 * p 个逻辑门,而实际乘法计算仅消耗 4 * p 个,导致硬件资源错配。 

8、为应对数据搬运引发的通信开销,Reiner Pope 解析了引入「脉动阵列(Systolic Arrays)」的设计目的,是通过在硬件层面固化更大颗粒度的循环运算来优化计算与通信的比例。

① 脉动阵列将模型权重驻留在局部阵列内部的寄存器中,复用这些权重处理不同输入。这使得计算量按 x * y 扩展时,所需的数据 I/O 通信量仅保持在 x 的比例。 

② 针对矩阵向量乘法,输入向量从外部按列送入阵列,在物理空间上垂直累加点积,实现了运算逻辑与阵列物理结构的一一映射。

③ 在数据加载策略上,芯片采用菊花链(daisy chain)方式利用时钟周期逐行下移数据,限制了跨边界所需的物理接线数量,最大化了有限面积内的计算吞吐率。


为何追求高时钟频率反而会限制芯片的算力极限?

1、在解决局部运算单元的数据吞吐问题后,Reiner Pope 剖析了全局时钟周期(Clock cycles)在硬件同步中的机制,以此解释了千亿级晶体管在物理层面如何避免信号延迟差异导致的混乱...

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

我对这个问题的理解是:以后买 AI 芯片不能只问“你多能算”,还要问“你搬砖快不快”。矩阵乘法是工人,数据搬运是物流,物流堵了,工人再卷也只能干等。

1 个赞

学术一点说,计算密度提升之后,系统瓶颈往往从 arithmetic bound 转向 memory bound 或 communication bound。脉动阵列、近存计算、HBM、先进封装,其实都是在围绕数据移动成本做文章。

3 个赞

回应“普通开发者要不要懂底层差异”:不用人人都懂到逻辑门级别,但至少要知道不同硬件擅长什么。比如 GPU 通用生态强,TPU/专用加速器适合固定模式的大规模矩阵计算,FPGA 灵活但开发门槛高。知道这些,选部署方案时少踩坑。

2 个赞

关于“大脑能不能启发AI硬件”:有意义,但不能简单照抄。大脑是异步、稀疏、低功耗、容错的系统,而现在 AI 芯片更像是同步、高吞吐、密集矩阵计算机器。启发点在能耗和通信方式,不在于把神经元硬搬进芯片。

1 个赞

从神经形态计算角度看,大脑确实提供了方向,比如事件驱动、局部通信、存算一体、稀疏激活。但目前主流大模型训练仍然依赖密集线性代数,所以短期内大脑式硬件更可能在特定场景落地,而不是替代 GPU。

1 个赞

我对这个问题的看法比较朴素:拿大脑和芯片比,就像拿猫和挖掘机比灵活性。猫当然厉害,但你不能让猫去修高速。大脑给灵感可以,真要训练千亿参数模型,还是得先看谁的矩阵乘法更能打。

1 个赞