大模型算力瓶颈不只在算法,更在逻辑门、数据搬运、时钟与芯片物理结构。
原文标题:面对相同的物理法则,GPU、FPGA与碳基大脑为何走向不同分支?
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章提到数据搬运成本可能比计算本身还高,这是不是意味着未来AI芯片竞争的核心不再是算力峰值?
3、GPU、TPU、FPGA这些硬件路线都在解决不同问题,普通开发者需要理解它们的底层差异吗?
4、把硅基芯片和碳基大脑放在一起比较有意义吗?大脑真的能给AI硬件设计带来启发吗?
原文内容
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
当前大语言模型的参数规模呈现增长趋势,但在硬件推理与训练阶段,单纯依赖数学算法优化难以克服底层的物理算力瓶颈。相比传统软件,AI 加速器的处理效率受制于晶体管的排布与数据搬运的物理开销。基于此,MatX 联合创始人 Reiner Pope 指出,大模型中密集的矩阵乘法受限于逻辑门物理组合及全局时钟频率,并在近期的一场对话中剖析了不同的算力需求为何催生出 GPU、TPU 与 FPGA 等不同的硬件分支。
目录
01. 为什么「乘加运算」是硬件设计的关键?
逻辑门如何制约 AI 芯片底层的算力极限?数据搬运成本超载如何阻碍传统架构的吞吐量提升?...
为什么「乘加运算」是硬件设计的关键?
1、近日,前 Google 大模型基础设施团队成员、现 MatX 联合创始人 Reiner Pope 围绕为什么不同的算力需求会催生出不同的芯片,从逻辑门出发,推演了芯片的运作原理。
① MatX 是 Reiner Pope 2022 年末成立的 AI 芯片初创公司,核心业务是研发用于训练和推理大规模 AI 模型的底层处理器芯片,其联合创始人 Mike Gunter 是 Google TPU 的创造者之一,曾在六个不同的行业领域主导设计或架构过 11 款商业芯片。
② MatX 推出了名为 「MatX One」 的旗舰 AI 处理器,该芯片在训练大模型时的运算速度预期比 NVIDIA 竞品快 10 倍,且近期获得了由 Jane Street 领投的 5 亿美元 B 轮融资。
2、Reiner Pope 提出,大语言模型中密集的矩阵乘法并非抽象的数学推演,而是受制于逻辑门(如与门、或门、非门)的排布逻辑,
① 芯片底层的逻辑门通过金属迹线在物理层面连接,构成了算力的物质基础。
② 针对大模型推理与训练中的矩阵运算,工业界将其拆解为基础的「乘加运算」,该工程设计的目的在于直接利用物理电路去匹配矩阵运算中嵌套循环的数学特性。
3、为解决运算中误差累积的痛点,Reiner Pope 阐明了 AI 芯片采用非对称精度计算,如 4 位乘法配合 8 位加法,这是因为累加阶段误差会随迭代快速累积,而乘法阶段无长期误差问题。
① Reiner Pope 指出,矩阵乘法本质上是对大量乘积进行求和,在累加阶段,舍误差会随着迭代次数持续叠加,而单一的乘法步骤中较少涉及长期的误差积累。
4、在阐述算术原理之后, Reiner Pope 解释了乘加运算是如何在硬件层面通过逻辑门来实现的。他以 Dadda 乘法器架构为例,解释了芯片如何通过反复应用全加器进行数据列的物理压缩,直至输出最终结果。
① 在物理电路上,生成 p 位与 q 位的部分乘积需要消耗 p * q 个「与门」来进行位运算。
② 负责求和的基础组件「全加器(full adder)」,在工程上被称为 3→2 压缩器,用于将三个同位宽的单比特输入相加并压缩为两比特输出。
③ Reiner Pope 补充道,整个运算过程中所消耗的全加器数量,同样与乘数位宽呈现出 p * q 的物理比例关系。
5、为了阐明低精度算术在深度学习中具备较高的工程效率,Reiner Pope 基于全加器数量的推演指出,降低数据位宽,如从 FP8 降至 FP4,所需的物理计算元件缩减并非线性,而是呈二次方关系。
① 二次方缩放关系使得芯片能够在有限的晶体管和功耗预算内,实现计算密度的非线性增长。
6、在此基础上,Reiner Pope 补充了不同精度的计算单元通常无法互换,芯片设计者须针对客户需求为不同精度的单元分配固定的物理面积。Reiner Pope 以 NVIDIA 为例,说明 B300 及之后的架构充分利用了二次方缩放优势,使 FP4 的处理速度达到了 FP8 的 3 倍。
7、Reiner Pope 回顾了引入 Tensor Core 之前的 GPU 或 CPU 等传统架构,指出其在执行矩阵计算时面临的物理瓶颈,并阐明了孤立运算单元在内部通信上的电路成本远超数学计算本身。
① 在传统的指令执行流程中,单个乘加单元需通过多路复用器(Mux)从寄存器文件读取输入数据。
② 构建这一数据读取通路所需的逻辑门(如与门和或门)占据了较大的物理面积。推演显示,数据移动消耗了 24 * p 个逻辑门,而实际乘法计算仅消耗 4 * p 个,导致硬件资源错配。
8、为应对数据搬运引发的通信开销,Reiner Pope 解析了引入「脉动阵列(Systolic Arrays)」的设计目的,是通过在硬件层面固化更大颗粒度的循环运算来优化计算与通信的比例。
① 脉动阵列将模型权重驻留在局部阵列内部的寄存器中,复用这些权重处理不同输入。这使得计算量按 x * y 扩展时,所需的数据 I/O 通信量仅保持在 x 的比例。
② 针对矩阵向量乘法,输入向量从外部按列送入阵列,在物理空间上垂直累加点积,实现了运算逻辑与阵列物理结构的一一映射。
③ 在数据加载策略上,芯片采用菊花链(daisy chain)方式利用时钟周期逐行下移数据,限制了跨边界所需的物理接线数量,最大化了有限面积内的计算吞吐率。
为何追求高时钟频率反而会限制芯片的算力极限?
1、在解决局部运算单元的数据吞吐问题后,Reiner Pope 剖析了全局时钟周期(Clock cycles)在硬件同步中的机制,以此解释了千亿级晶体管在物理层面如何避免信号延迟差异导致的混乱...

