微软发布自研AI芯片Maia 200,专为AI推理加速而生

微软发布自研AI芯片Maia 200,基于3nm工艺,专为AI推理设计,性能强大且高效。

原文标题:刚刚,微软全新一代自研AI芯片Maia 200问世

原文作者:机器之心

冷月清谈:

微软发布了其自研的下一代AI芯片Maia 200,该芯片基于台积电3纳米工艺打造,专为提升AI推理的经济性而设计。Maia 200 配备了 HBM3e 内存、高带宽和片上 SRAM,旨在高效处理大规模模型。性能方面,Maia 200 在 FP4 和 FP8 性能上均超越了竞争对手的产品。在系统层面,Maia 200 引入了一种基于标准以太网的新型两层 Scale-up 网络设计,实现了高性能和高可靠性。微软还为Maia 200 提供了 Maia SDK,方便开发者构建和优化模型。此外,微软强调了在芯片设计初期就对端到端系统进行验证,确保快速部署和优化。

怜星夜思:

1、Maia 200 芯片主要针对 AI 推理加速,那么它在 AI 训练方面的潜力如何?与专门的 AI 训练芯片相比,Maia 200 的优势和劣势可能是什么?
2、文章提到 Maia 200 通过重新设计的内存子系统提升了 Token 吞吐量。那么,这种内存子系统的设计思想是什么?对于其他芯片设计有什么借鉴意义?
3、Maia 200 与 Azure 实现了无缝集成,并提供了 Maia SDK。对于开发者来说,使用 Maia SDK 开发和优化 AI 模型有哪些优势和挑战?

原文内容

图片
机器之心编辑部


一觉醒来,我们看到了微软自研 AI 芯片的最新进展。


微软原定于 2025 年发布的下一代 AI 芯片 Maia 200,终于在今天问世!


微软 CEO Satya Nadella


根据微软官方介绍,Maia 200 作为一款强大的 AI 推理加速器,旨在显著改善 AI token 生成的经济性。


Maia 200 基于台积电的 3 纳米工艺打造,配备原生 FP8/FP4 张量核心、重新设计的内存系统,拥有 216GB HBM3e 内存、7TB/s 带宽以及 272MB 片上 SRAM,并配有数据传输引擎,从而能够保证大规模模型高效、快速地进行数据流动。


这些使得 Maia 200 成为任何超级计算平台中表现最强的第一方硅片,其 FP4 性能是第三代 Amazon Trainium 的三倍,FP8 性能超越了谷歌第七代 TPU。


与此同时,Maia 200 还是微软迄今为止最高效的推理系统,每美元性能比该公司当前集群中的最新一代硬件提升了 30%。



Maia 200 是微软异构 AI 基础设施的重要组成部分,将为包括 OpenAI 最新 GPT-5.2 在内的多个大模型提供支持,为 Microsoft Foundry 和 Microsoft 365 Copilot 带来更高的性价比优势。


微软超级智能团队将利用 Maia 200 进行合成数据生成和强化学习,以提升下一代自研模型的性能。在合成数据流水线应用场景中,Maia 200 的独特设计有助于加速高质量、特定领域数据的生成与筛选,从而为后续的模型训练提供更及时、更具针对性的信号。


Maia 200 已部署在爱荷华州德梅因附近的美国中部数据中心区域,接下来将部署在亚利桑那州菲尼克斯附近的美国西部 3 区域,未来还将扩展至更多地区。


Maia 200 与 Azure 实现了无缝集成。目前,微软正在开放 Maia SDK 的预览,该 SDK 提供了一整套用于构建和优化 Maia 200 模型的工具,涵盖了 PyTorch 集成、Triton 编译器、优化内核库以及对 Maia 底层编程语言的访问权限。这既能让开发者在需要时进行精细化控制,又能实现模型在不同异构硬件加速器之间的轻松迁移。


对于微软这波突如其来的「秀肌肉」,社区反响热烈。


有网友送出点赞,并强调了微软在基础设施层面的统治力。



也有人关心上面是否能安装最近爆火的 Clawdbot



也不乏灵魂拷问/调侃。



专为 AI 推理打造

Maia 200 芯片采用台积电最先进的 3 纳米工艺制造,单颗芯片包含超过 1400 亿个晶体管。它专门针对大规模 AI 工作负载进行了定制,同时兼顾了极高的能效比。因此,无论是在性能还是成本效益方面,Maia 200 均表现卓越。


Maia 200 专为使用低精度计算的最新模型设计,在 750W 的 SoC 热设计功耗(TDP)范围内,单颗芯片可以提供超过 10 PetaFLOPS 的 FP4 性能和超过 5 PetaFLOPS 的 FP8 性能。


从实际应用来看,Maia 200 可以轻松运行当今规模最大的模型,并为未来更庞大的模型预留了充足的性能空间。



关键在于,算力(FLOPS)并非提升 AI 速度的唯一因素,数据的传输效率同样至关重要。Maia 200 通过重新设计的内存子系统解决了这一瓶颈。


该子系统以窄精度数据类型为核心,配备了专门的 DMA 引擎、片上 SRAM 和专用的片上网络(NoC)总线,用于实现高带宽数据移动,从而提升了 Token 吞吐量。



优化的 AI 系统

在系统层面,Maia 200 引入了一种基于标准以太网的新型两层 Scale-up 网络设计。通过定制的传输层和紧密集成的网卡(NIC),它在不依赖私有协议矩阵的情况下,实现了高性能、高可靠性和显著的成本优势。


每个加速器可以提供:


  • 2.8 TB/s 的双向专用 Scale-up 带宽;


  • 在包含多达 6,144 个加速器的集群中,实现可预测的高性能集合通信。


这种架构为密集型推理集群提供了可扩展的性能,同时降低了功耗和 Azure 全球机架的整体拥有成本(TCO)。


在每个托架(tray)内,四个 Maia 加速器通过直接的非交换链路全连接,使高带宽通信保持在本地,实现最佳推理效率。机架内和机架间的联网均采用相同的 Maia AI 传输协议,通过最少的网络跳数实现跨节点、机柜和集群的无缝扩展。


这种统一的架构简化了编程,提高了工作负载的灵活性,减少了闲置容量,并在云端规模下保持了性能与成本效率的一致性。



云原生开发模式

Microsoft 芯片开发计划的一个核心原则,是在最终芯片就绪之前,尽可能地验证整个端到端系统。


针对 Maia 200,一套复杂的预芯片环境从架构设计之初便发挥了引导作用,能够高保真地模拟大语言模型的计算与通信模式。正是通过这种早期的协同开发环境,微软得以在首颗芯片生产出来之前,就将芯片、网络与系统软件视为统一整体进行深度优化。


为了确保 Maia 200 能够在数据中心实现快速且无缝的部署,微软从设计阶段就同步开展了对后端网络及第二代闭环液冷换热单元等复杂系统组件的早期验证。通过与 Azure 控制平面的原生集成,该系统在芯片和机架层面实现了安全性、遥测、诊断及管理能力的全面覆盖,从而显著提升了生产级关键 AI 负载的可靠性与运行时间。


得益于这些投入,在首批封装件送达后的几天内,AI 模型便已在 Maia 200 芯片上成功运行。从首颗芯片到首个数据中心机架部署的时间缩短了一半以上,优于同类 AI 基础设施项目。这种从芯片到软件再到数据中心的端到端方法,直接转化为更高的利用率、更短的投产时间,以及在云规模下每美元性能和每瓦特性能的持续提升。



大规模 AI 时代才刚刚开启,基础设施将决定创新的边界。微软表示,Maia AI 加速器计划是跨代发展的。


在向全球基础设施部署 Maia 200 的同时,微软已经在设计未来几代产品,并期待每一代都能不断树立新标杆,为最重要的 AI 工作负载提供更卓越的性能和效率。


官方博客:

https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我更关心的是,这个SDK是不是真的好用?(手动狗头)很多厂商都喜欢搞自己的SDK生态,但最后往往因为文档不全、bug 太多、更新不及时等原因,让开发者望而却步。希望微软这次能吸取教训,认真维护 Maia SDK,让它真正成为开发者手中的利器。

这个问题问得好!虽然文章主要强调 Maia 200 在推理方面的优势,但高性能的硬件往往也能在训练中发挥作用。个人理解,Maia 200 在训练上的潜力取决于微软如何优化其软件生态,比如编译器和库的支持。如果能充分利用其高带宽内存和低精度计算能力,也许能在特定类型的训练任务上获得不错的表现。但和英伟达A100或者H100这些专用的训练芯片比,可能在通用性和生态上还是有差距。

我觉得这个问题很有深度!从硬件规格来看,Maia 200 拥有强大的计算能力和内存带宽,这对于 AI 训练来说也是非常重要的,但是在 AI 训练方面,除了硬件之外,软件生态也非常重要,例如对各种深度学习框架的优化支持、完善的开发工具链等等。和英伟达等厂商的专用 AI 训练芯片比,Maia 200 在软件生态方面可能还存在一定的差距,但是如果微软能够持续投入和优化,相信未来在 AI 训练领域也有一定的潜力。当然以上都是基于纸面参数的推测,实际效果还需要通过benchmark来验证,期待未来能看到更多关于Maia 200在AI训练方面的测试结果。

我觉得,Maia 200 的内存子系统设计强调的是“数据局部性”和“低延迟”。通过片上 SRAM 缓存和优化的 DMA 引擎,尽可能地将需要频繁访问的数据放在离计算单元更近的地方,减少了对外部 HBM 的访问次数。这种设计思想符合现代计算机体系结构的发展趋势,即尽可能地减少数据搬运的开销。对于其他芯片设计,这种思想可以指导我们在设计内存系统时,要充分考虑 workload 的特点,优化数据访问模式,从而提升整体性能。

集成的 SDK 意味着开发者可以更方便地利用 Maia 200 的硬件加速能力,无需关心底层的硬件细节。优势很明显:加速开发流程,降低优化难度,快速部署到 Azure 云平台。挑战可能在于:需要学习新的 SDK,可能存在兼容性问题,以及可能对底层硬件的控制不如直接编程灵活。

Token 吞吐量是影响大模型推理速度的关键因素。Maia 200 重新设计的内存子系统,很可能采用了更靠近计算单元的片上 SRAM 缓存,减少了数据搬运的延迟。此外,针对窄精度数据类型(FP4/FP8)的优化,也能有效提升内存利用率。
这种设计思路对于其他芯片设计,尤其是针对特定 workload 的加速器设计,非常有借鉴意义。例如,可以根据 workload 的特点,定制内存层次结构和数据通路,从而最大化性能。

楼上说的有道理,不过我觉得大家是不是太严肃了?(狗头)说实话,我觉得 Maia 200 更像是微软在 AI 军备竞赛中的一步棋,主要目标是巩固自己在云服务市场的地位,训练交给专业选手,推理才是离用户最近的,毕竟365 Copilot要靠它吃饭呢。

我认为最大的优势在于,Maia SDK 能够提供针对 Maia 200 硬件的优化工具和库,帮助开发者充分发挥芯片的性能。例如,Triton 编译器可以自动将高级语言代码编译成针对 Maia 200 的底层指令,从而提升运行效率。挑战在于,开发者需要了解 Maia 200 的硬件架构和特性,才能有效地利用 SDK 进行优化。此外,如果开发者已经习惯了使用其他 AI 框架(如 TensorFlow 或 PyTorch),那么可能需要花费一些时间来学习和适应 Maia SDK。

从另一个角度来说,这种设计也是“trade-off”的艺术。片上 SRAM 缓存虽然速度快,但面积和功耗也高。因此,需要在性能、面积和功耗之间找到一个平衡点。Maia 200 的设计可能更侧重于性能,毕竟是云端应用,对功耗的容忍度更高。