中国AI算力芯片新版图:三大阵营共逐高性能与强生态

国产AI算力芯片市场蓬勃发展,多元厂商通过技术创新、生态建设和差异化竞争,正加速追赶国际先进水平。

原文标题:主流国产AI算力芯片全景图

原文作者:牧羊人的方向

冷月清谈:

近年来,在国产化替代政策推动下,中国AI芯片产业蓬勃发展,形成了多元化的竞争格局。文章将国内AI芯片厂商分为三类:专攻训练与推理的ASIC厂商(如寒武纪、天数智芯、昆仑芯)、主打CPU路线的厂商(如海光信息)以及布局全栈解决方案的厂商(如昇腾、平头哥、摩尔线程、燧原科技)。

AI算力芯片主要包括GPU、FPGA和ASIC,其中GPGPU因其通用性在AI训练和推理领域应用最广。评估AI芯片的关键指标包括算力、功耗和面积(PPA)。算力衡量运算速度,功耗关注能效比,而面积则影响成本和良率。文章详细介绍了英伟达GPGPU的关键硬件参数及其架构演变。

针对国内市场,文章深入剖析了多家代表性国产AI算力芯片企业,包括寒武纪、海光信息、沐曦集成电路、天数智芯、壁仞科技、燧原科技、昆仑芯、平头哥、昇腾计算产业链和摩尔线程。每家企业都有其独特的技术路线、产品定位、性能特点和生态建设策略。例如,寒武纪以自主指令集架构和云边端产品矩阵为特点;海光信息则以兼容“类CUDA”环境的GPGPU架构降低用户迁移成本;昇腾计算产业链则致力于构建从芯片到应用的完整全栈生态。

目前,国产AI芯片厂商在算力性能上正加速追赶,旗舰产品普遍在INT8精度下达到100-200TOPS水平,领先企业已采用7nm工艺,5nm产品正在研发中,并尝试通过Chiplet等先进封装技术提升性能。同时,各厂商积极寻求差异化竞争,重视软件栈与开发生态建设,许多厂商 致力于构建类CUDA的软件平台或兼容主流深度学习框架(如Pytorch, TensorFlow)。此外,与大模型的深度合作、构建集群级解决方案以及强调供应链自主和国产化,也成为国产AI芯片产业发展的重要趋势。

怜星夜思:

1、文章提到英伟达的CUDA生态是其巨大优势。国产AI芯片厂商除了兼容现有框架或自建生态外,还有没有其他“奇招”或策略,能够有效打破这种生态壁垒,吸引更多开发者转向国产平台?
2、文章中提到国产芯片正在寻求性能追赶与差异化竞争。在你看来,国产AI芯片目前最应该优先在哪一领域或场景进行差异化布局,才能最大化地发挥优势并取得突破?是边缘计算、特定行业AI、还是超大规模模型训练等?
3、文章末尾提到“集群级解决方案与先进互联”是国产AI芯片的竞争焦点。构建一个稳定高效、支持万卡级甚至更高规模的国产AI算力集群,除了芯片本身的性能,你认为还需要在哪些方面投入更多研发和突破?

原文内容

人工智能算力芯片是支撑国家人工智能战略的核心基础设施。近年来,在国产化替代和自主可控的政策引导下,国内AI芯片产业呈现蓬勃发展态势,形成了多元化的市场竞争格局。根据产业发展特点,这些企业可分为三类:专攻训练与推理的ASIC厂商(如寒武纪、天数智芯、昆仑芯)、主打CPU路线的厂商(如海光信息、壁仞科技、沐曦集成电路)以及布局全栈解决方案的厂商(如昇腾、平头哥、摩尔线程、燧原科技)。

AI 算力芯片主要包括 GPU、FPGA,以及以 VPU、TPU 为代表的 ASIC 芯片。其中以 GPU 用量最大,据 IDC 数据,2025 年 GPU 仍将占据 AI 芯片 8 成市场份额。然而,相较传统图形 GPU,通用型算力 GPU 在芯片架构上缩减了图形图像显示、渲染等功能实现,具有更优的计算能效比,因而被广泛应用于人工智能模型训练、推理领域。
AI 芯片可以分为云端 AI 芯片 、边缘和终端 AI 芯片;根据其在实践中的目标,可分为训练( training )芯片和推理( inference )芯片。云端主要部署高算力的 AI 训练芯片和推理芯片,承担训练和推理任务,具体有智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。
1、性能与生态:AI算力芯片壁垒
评价 AI 芯片的指标主要包括算力、功耗、面积、精度、可扩展性等,其中算力、功耗、面积(PPA)是评价 AI 芯片性能的核心指标:
(1)算力:衡量 AI 芯片算力大小的常用单位为 TOPS 或者 TFLOS,两者分别代表芯片每秒能进行多少万亿次定点运算和浮点运算,运算数据的类型通常有整型 8 比特(INT8)、单精度 32 比特(FP32)等。AI 芯片的算力越高,代表它的运算速度越快、性能越强。
(2)功耗:功耗即芯片运行所需的功率,除了功耗本身,性能功耗比是综合衡量芯片算力和功耗的关键指标,它代表每瓦功耗对应输出算力的大小。
(3)面积:芯片的面积是成本的决定性因素之一,通常来讲相同工艺制程之下,芯片面积越小良率越高,则芯片成本越低。此外,单位芯片面积能提供的算力大小亦是衡量 AI 芯片成本的关键指标之一。
英伟达的 GPGPU 是全球应用最为广泛的 AI 芯片,决定其性能的硬件参数主要包括:微架构、制程、CUDA 核数、Tensor 核数、频率、显存容量、显存带宽等。其中,微架构即 GPU 的硬件电路设计构造的方式,不同的微架构决定了 GPU的不同性能,作为英伟达 GPU 的典型代表,V100、A100、H100 GPU 分别采用Volta、Ampere、Hopper 架构;CUDA 核是 GPU 内部主要的计算单元;Tensor核是进行张量核加速、卷积和递归神经网络加速的计算单元;显存容量和带宽是决定 GPU 与存储器数据交互速度的重要指标。
2、国产AI 算力芯片全景图
全球 AI 芯片市场被英伟达垄断,然而国产 AI 算力芯片正起星星之火。目前,国内已涌现出了如寒武纪、海光信息等优质的 AI 算力芯片上市公司,非上市 AI 算力芯片公司如沐曦、天数智芯、壁仞科技等亦在产品端有持续突破。
2.1 寒武纪

2.1.1 主打产品与技术路线

寒武纪作为中国最早专注于AI芯片的企业之一,形成了完整的云边端产品矩阵。其云端主打产品包括MLU370-X8MLU370-S4MLU370-X4训练加速器,以及MLU100智能云芯片;边缘端则覆盖Cambricon-1A1H1M系列终端智能处理器

2.1.2 技术特点与性能分析

寒武纪的核心竞争力在于自主指令集架构(Cambricon ISA),该架构专门针对深度学习任务优化,支持动态可重构架构,可根据不同算法需求调整计算单元配置。在计算精度方面,其芯片支持稀疏计算加速和低精度量化(FP16/INT8/INT4),显著降低功耗的同时保持计算效率

性能表现上,寒武纪产品持续迭代升级:早期Cambricon-1A2016年)的非稀疏理论峰值性能为0.5TOPSFP16);第三代Cambricon-1M1GHz主频下,8位定点AI运算峰值速度达8TOPS16位为4TOPS32位为1TOPS 。最新产品算力显著提升,有信息显示其芯片算力可达256TOPS,并支持高达16TOPS的性能表现但具体对应型号未明确说明。

工艺方面,寒武纪已采用7nm制程技术,并正在研发第四代智能处理器IP Cambricon 1V5nm先进工艺物理设计技术,体现了持续的技术演进能力。

2.1.3 生态建设与应用场景

寒武纪芯片可应用于视觉、语音、自然语言处理、推荐系统、搜索、传统机器学习等多种应用领域。其产品强调高性能、低功耗、高能效比、可扩展性、自适应精度训练和小体积部署在多个行业已有实际部署案例。

2.2 海光信息

2.2.1 产品体系与市场定位

海光信息专注于高端处理器研发,产品线分为海光通用处理器(CPU海光协处理器(DCU两条主线。在AI加速领域,其DCU系列(深算一号、深算二号、深算三号)是主打产品,其中"深算二号"2023年第三季度发布,深算三号应是近期推出的新品。

2.2.2 技术架构与性能表现

海光DCU采用GPGPU架构,兼容"CUDA"环境,能够适配国际主流商业计算软件和人工智能软件,拥有开源软件栈。这一设计极大降低了用户迁移成本,是其市场竞争的关键优势。

在计算性能方面,海光DCU支持多种精度(双精度、单精度、半精度和整型)计算,在AI训练和推理方面有专门优化。芯片内置高带宽内存芯片,提升大规模数据处理效率,具备强大的并行计算能力。虽然搜索结果未提供具体的TOPSFLOPS数值,但多次强调其"计算性能出色""高能效比"的特点。

工艺方面,海光8100采用FinFET工艺,但具体制程节点(如7nm5nm等)和详细的内存接口规格未明确披露。

2.2.3 应用生态与市场前景

海光DCU适用于AI推理、大数据处理、边缘计算、物联网等场景在商业计算领域已有广泛应用。其兼容CUDA生态的策略降低了用户学习成本,有利于市场推广和生态建设。

2.3 沐曦集成电路

2.3.1 技术路线与产品定位

沐曦集成电路专注于提供高性能GPGPU芯片及解决方案,产品瞄准数据中心、AI训练和推理等高端市场。虽然搜索结果中未详细提及沐曦的具体产品参数,但根据行业公开信息,沐曦已推出系列GPGPU产品,采用自主研发的架构。

2.3.2 性能特点与技术创新

沐曦芯片支持全线精度计算(FP32FP16BF16INT8等),具备高计算密度和能效比。其架构设计注重兼容主流AI软件生态,支持多种深度学习框架,降低用户迁移门槛。

2.3.3 生态建设与发展战略

沐曦注重构建完整的软件栈和开发生态,提供基础驱动、运行时库、编译器、开发工具等全套软件支持。公司与多家服务器厂商、云计算企业和高校科研机构建立合作,推动产品落地和生态成熟。

2.4 天数智芯

天数智芯主打通用GPU芯片,其产品包括训练和推理加速卡。公司推出全自研的""系列芯片,支持FP32FP16BF16等多种计算精度,针对AI训练和推理场景进行优化。天数智芯的 Big Island 云端 GPGPU 是一款具有自主知识产权、自研 IP 架构的 7nm 通用云端训练芯片,这款芯片达到 295TOPSINT8 算力。

2.5 壁仞科技
壁仞科技发布首款 GPGPU 芯片BR100,BR100 芯片采用 chiplet 技术,其 16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上。壁仞科技芯片在FP32FP16INT8等精度下算力指标领先,尤其擅长大规模模型训练。
2.6 燧原科技
燧原科技专注于AI训练和推理全栈解决方案,其"云炬"系列芯片针对云计算场景深度优化。产品支持高精度浮点计算和低精度整数计算,平衡算力和能效。公司最新发布的第二代推理产品云燧 i20 是面向数据中心应用的第二代人工智能推理加速卡,采用 12nm 工艺,通过架构升级大大提高了单位面积的晶体管效率,算力可媲美 7nm GPU,达到 256TOPS。
2.7 昆仑芯
昆仑芯(原百度昆仑)起源于百度AI加速器项目,已迭代多代产品。其芯片采用自研架构,针对搜索、推荐、语音、图像等百度内部场景深度优化,同时向外部客户开放。昆仑芯算力密度高,支持混合精度计算和稀疏计算加速。软件生态与百度飞桨深度集成,同时支持其他主流框架,在互联网行业有广泛应用案例。昆仑芯新品 AI 芯片 R200 于 2022智算峰会上正式发布,基于新一代昆仑芯自研架构 XPU-R,通用性和性能显著提升,采用 先进工艺。配合百度飞桨平台,获得更友好开发的环境。
2.8 平头哥
平头哥作为阿里巴巴旗下芯片企业,提供端云一体的AI算力解决方案。其AI芯片主要含端侧推理芯片和云侧加速卡,与阿里云生态深度协同。平头哥有两条研发主线,一是利用 ARM 的 IP 为阿里云数据中心研发芯片,在云端提供普惠算力,即倚天系列和含光系列;另一边集中在 RISC-V 处理器架构的研发,如玄铁系列,主要应用是在 AIoT 领域。公司技术团队由原中天微、高通、AMD、华为海思等拥有丰富研发经验的人员构成。平头哥于 2019 年 9 月发布首颗数据中心芯片含光 800,采用 12nm 工艺,性能峰值算力达 820 TOPS。

2.9 昇腾计算产业链

华为昇腾打造了芯片+硬件+软件+应用的全栈生态系统。昇腾系列芯片包括训练和推理产品,基于达芬奇架构,支持从边缘到数据中心的全面部署。华为主打 AI 芯片产品有310 910B310 偏推理,当前主打产品为 910B,拥有FP32 和 FP16 两种精度算力,可以满足大模型训练需求。910B 单卡和单台服务器性能对标 A800/A100

腾计算产业是基于腾 AI 芯片和基础软件构建的全栈 AI 计算基础设施、行业应用及服务,能为客户提供 AI 全家桶服务。主要包括腾 AI 芯片、系列硬件、CANNAI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。

2.10 摩尔线程(Moore Threads

2.10.1 技术架构与产品矩阵

摩尔线程采用多元融合的技术路线,基于自研MUSA架构,产品覆盖AI计算加速、图形渲染、物理模拟和视频处理等多种工作负载。公司形成了从云端到终端的"--"产品布局。主要产品包括:服务器级的MCCX D800 X2(大型模型训练)、MTT S4000(智能计算加速卡)、MTT S3000(云渲染卡)、MTT S80(桌面级图形卡)以及边缘AI计算模块。公司还推出KUAE智能计算集群解决方案,目标是构建支持大规模GPU集群和达到拍瓦级浮点计算能力的平台

2.10.2 性能指标与技术特点

MTT S4000采用第三代MUSA架构,配备48GB GDDR6内存,提供768GB/s带宽,支持PCIe 5.0 x16总线。其算力表现为:FP32算力25 TFLOPsTF32算力50 TFLOPsFP16/BF16算力100 TFLOPsINT8算力200 TOPS 。作为参考,其FP32性能约为RTX 409030% 

MTT S2000则拥有4096MUSA核心,32GB显存,12TFlops单精度计算能力。整个产品线强调异构多核架构和自适应调度器设计,旨在降低功耗和提高能效

2.10.3 生态建设与兼容策略

摩尔线程定位为全栈AI基础设施提供商MUSA架构注重计算通用性、技术演进能力和生态兼容性。产品兼容X86ARM和主流Linux操作系统,并通过提升CUDA兼容性来改善软件可移植性,助力中国GPU行业的自主可控进程

2.11 厂商对比

国产AI芯片主要分为三条技术路线:专用ASIC路线(寒武纪、天数智芯、昆仑芯)、GPGPU路线(海光、壁仞、沐曦)和全栈解决方案路线(昇腾、平头哥、摩尔线程、燧原科技)。ASIC路线在能效和特定场景优化上有优势;GPGPU路线在通用性和生态兼容性上更胜一筹;全栈解决方案则强在端到端优化和系统级性能。从算力性能看,各厂商旗舰产品在INT8精度下普遍达到100-200TOPS算力水平,部分产品可达更高算力。内存带宽多在500-800GB/s范围,支持PCIe 5.0成为新代产品的标准配置。在工艺制程方面,领先企业已采用7nm工艺,5nm产品正在研发中。

3、总结
  1. 性能追赶与差异化竞争:国产芯片在绝对算力上与国际顶尖水平尚有差距,但正通过支持FP8FP64多精度、优化HBM高带宽内存、采用** Chiplet** 先进封装等方式提升性能。在能效(如平头哥PPU)、特定场景优化(如昇腾超节点)等方面寻求差异化优势。

  2. 软件栈与开发生态:许多厂商致力构建类CUDA的软件平台(如海光DTK、沐曦MXMACA),或通过兼容主流框架(如Pytorch, TensorFlow)降低开发者迁移成本。

  3. 适配与大模型合作:积极适配国内外主流大模型(如DeepSeek、LLaMA、ChatGLM等)成为普遍策略,甚至出现芯片公司与模型公司“深度软硬协同优化”(如阶跃星辰与沐曦)。

  4. 集群级解决方案与先进互联:不止于单卡性能,万卡级集群的建设和互联技术成为竞争焦点。华为昇腾超节点、壁仞科技参与的光互连光交换GPU超节点等都体现了这一点。

  5. 应用导向与行业渗透:芯片设计更贴近实际应用场景,面向互联网、金融、政务、能源、科研等不同领域提供解决方案。

  6. 供应链自主与国产化:强调自主研发核心IP、构建国产供应链已成为众多厂商的重要目标和发展战略。


参考资料:

1、智能计算芯世界



从战略角度看,国产AI芯片的差异化布局应着眼于国家安全和核心产业自主可控需求。因此,优先发展在金融、政务、能源、国防等高敏感性行业的AI解决方案至关重要。这些领域不仅对性能有要求,更对数据主权、供应链自主和安全性有极高门槛。利用国内市场庞大的行业应用场景需求,与垂直行业深度绑定,并通过政策引导,培养出基于国产AI芯片的行业标准和生态规范。同时,结合新型存储和互联技术,在数据中心内部的“国产化改造”市场也大有可为。

要搞万卡级集群?这听起来就像搭乐高积木,但积木块之间不光要能拼上,还得通电、通网,最重要的是它得牢啊!我觉得除了芯片,最最关键的就是散热!想想几万张显卡一起发热,那得多烫手?再就是电力供应,得有靠谱的超大电源。还有啊,网络传输必须得快,不然芯片算得再快,数据传不过去也白搭。最后,还得有个“大管家”一样的系统,能把所有资源都安排得明明白白,别老是这里掉线那里宕机,那就崩溃了。

我觉得吧,国产芯片现在不用啥都争第一,先找个地方把根扎稳了。边缘计算就是个好地方!你想啊,咱国家多少智能门锁、智能摄像头、智能家电,这些设备对算力要求没那么高,但对功耗、成本、实时性特别敏感。如果国产芯片能把这块市场吃透,做出又便宜又好用、还省电的芯片,那市场份额肯定蹭蹭涨。大模型训练这种苦活累活,暂时可以先跟着,等有了钱和经验再考虑争霸赛!

关于“构建万卡级国产AI算力集群需要哪些研发和突破”,这远不止芯片性能那么简单。首先,在互联技术上,需要有媲美或超越InfiniBand、CXL等国际标准的方案,保证大规模数据传输的低延迟和高带宽。其次是集群管理软件和调度系统,这直接决定了算力资源的利用效率和任务分配的智能性。再者,高效散热与供电系统是物理层面的基础,大规模集群的能耗是天文数字。最后,全栈软件栈的优化,包括操作系统、驱动、AI框架、并行计算库等,确保软硬件的无缝协同和性能最大化。这些都是系统性工程,缺一不可。

构建超大规模国产AI算力集群,核心挑战在于构建高度耦合且可靠的系统级解决方案。除了芯片和互联技术,高带宽、低延迟的存储系统至关重要,它直接影响数据吞吐和训练效率。此外,容错机制与故障恢复能力在万卡规模下将是巨大考验,需要创新的算法和硬件设计来保证系统韧性。安全防护体系也需从硬件层、固件层到软件层进行端到端设计,防范潜在的攻击和数据泄露。最终,实现这些关键部件的供应链自主与标准化,以确保长期稳定供应和生态的互联互通,将是最终的胜利条件。