蚂蚁集团突破:国产AI芯片降本增效,模型性能比肩DeepSeek

蚂蚁集团用国产AI芯片降本20%,模型性能媲美DeepSeek!通过优化模型架构和训练策略,在有限资源下实现高效LLM训练。

原文标题:“不用高级GPU”!蚂蚁用国产AI芯片狂降百万训练成本,模型性能还与DeepSeek相当

原文作者:AI前线

冷月清谈:

蚂蚁集团在人工智能领域取得重要进展,通过优化模型架构、训练框架和存储,并结合国产AI芯片,成功将人工智能训练成本降低了20%,在训练专家混合模型(MoE)时,计算成本从635万元人民币/万亿Token降低至508万元人民币,且模型性能可与Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相媲美。该技术报告详细介绍了蚂蚁集团如何通过一系列创新策略,在不依赖高端GPU的情况下提升模型性能,包括优化模型架构、训练框架和存储,以及改进训练异常处理和模型评估效率。蚂蚁集团还强调了LLM训练的挑战,包括硬件差异和模型结构的微小改动可能导致的问题,以及跨平台训练的复杂性。蚂蚁集团通过开发和开源Ling系列MoE模型,展示了在资源有限的情况下实现高性能AI训练的潜力,为医疗保健和金融等行业提供了新的AI解决方案。

怜星夜思:

1、蚂蚁集团这次用国产芯片降低AI训练成本的策略,对国内其他AI公司有什么借鉴意义?
2、蚂蚁集团在报告中提到了LLM训练过程中的各种挑战,比如损失发散、专家负载不平衡等。你在训练大模型时遇到过哪些印象深刻的坑?又是怎么解决的?
3、蚂蚁集团提到他们开源了Ling系列 MoE 模型,你觉得这些开源模型对于推动国内AI发展有什么积极意义?

原文内容

整理 | 华卫

近日,据外媒报道,中国金融科技巨头蚂蚁集团在人工智能领域取得了重大突破。有知情人士透露,蚂蚁集团使用由阿里巴巴和华为制造的国产芯片,开发出了将人工智能训练成本降低 20% 的方法。

据称,蚂蚁集团在训练“专家混合”(Mixture of Experts,以下简称 MoE)模型时运用了多种优化方法,在国产芯片的基础上取得了与使用英伟达 H800 等芯片差不多的训练效果:计算成本从 635 万元人民币 / 万亿 Token 降低至 508 万元人民币,但模型性能却能与 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相媲美。

这一消息引发了广泛关注,蚂蚁所带来的成果令海外的网友感到震惊。许多人纷纷发出感叹:“中国变化太快”、“美国禁止向中国供应芯片,只会让中国芯片制造业更快发展”、“这释放出一个强有力的信号:人工智能领域的主导地位并非英伟达一家独揽”。

而蚂蚁的相关成果早在 3 月 11 日就已公开发表,蚂蚁集团 Ling 团队在其技术报告论文中,介绍了这一系列“不使用高级 GPU 来扩展模型性能”的创新策略。此外,蚂蚁还指出了他们在过程中遇到的挑战和教训。“即使是硬件或模型结构的微小改动,也可能引发问题,比如导致模型的错误率突然上升。”

具体做了哪些优化?

随着企业在人工智能领域投入大量资金,MoE 模型已成为一种热门选择。这种技术将任务划分为较小的数据组,就像组建了一支专家团队,每个成员专注于一项工作的某个部分,从而提高了工作效率。然而,虽然 DeepSeek、阿里 Qwen、MiniMax 等系列的 MoE 模型在特定任务中已展现出优越性能,但这类模型的训练通常依赖高性能计算资源,如英伟达 H100/H800 等先进 GPU,其高昂的成本让许多小公司望而却步,也限制了该技术的更广泛应用。

在技术报告中,蚂蚁首先就探讨了训练 MoE 模型所面临的这些挑战,重点是要克服此类系统中普遍存在的成本效率低下和资源限制问题。为此,他们提出了一系列系统优化策略,以便在有限的资源和预算约束下实现高效的 LLM 训练,平衡资源成本和模型性能,包括优化模型架构和训练策略、改进训练异常处理、提高模型评估效率和工具使用能力。

在优化模型方面,他们从架构、训练框架和存储三方面进行了优化。

  • 模型架构优化:基于对密集模型和 MoE 模型缩放规律的综合分析,选择与可用计算资源最匹配的架构。

  • 训练框架优化:针对异构计算平台,将多个训练框架整合为一个统一的分布式深度学习框架,即开源项目 DLRover DLRover 。其开发了一种轻量级调试工具 XPUTimer,它有助于快速、经济高效地分析任务性能,同时减少了 90% 的内存使用量。此外,还实施了一种与平台无关的异步训练策略 EDiT(弹性分布式训练),它提高了训练效率,训练时间在各种配置下最多可缩短 66.1%。

  • 存储优化:采用设备多租户和用户空间文件系统(FUSE)等技术,实现大规模训练的高性能和多集群适应性。存储和训练流程的协同设计提高了 MoE 场景中的 I/O 效率,将时间开销减少了 50%。

针对大规模训练中的硬件错误和损耗异常,蚂蚁开发了一套稳健的异常处理机制,包括一套实时监控整个训练过程异常的多层次异常检测系统和为减少异常情况对训练进度影响而实施的一种自动恢复机制。

同时,为了优化对跨集群模型训练的监测,他们尝试改进了以下评估基准和框架:

  • 综合评估数据集:为减少模型初始表现不佳并提高稳定性,构建了一些特定领域的评估数据集,并优化了相应的预测策略和提示模板。

  • 高效评估系统:基于自主创新的离线推理框架(即 Flood),开发了一套可扩展的跨集群评估系统,其结果稳定,平均偏差小于 0.5%。

  • 自动分析系统:为了提供实时反馈以调整训练策略,开发了一个自动系统,将评估结果与模型性能和数据集相关联。

在提高大型模型的工具使用能力上,蚂蚁重点关注高质量数据合成和自适应工具学习两个关键方面。

为了有效生成高质量、可扩展和多样化的工具使用数据,蚂蚁团队利用知识图谱技术和广义调用指令来提取多样化和复杂的函数链,从而增强凌模型在各种实际场景中的适用性。团队利用拒绝采样和纠错等学习策略开发了自省式多机器人交互对话,以增强模型的自适应工具使用能力。

据蚂蚁介绍,他们开发并开源的 Ling 系列 MoE 模型,就是一个基于上述技术优化成功平衡资源成本与模型性能的示例。

其中,Ling-Lite 包含 168 亿个参数和 27.5 亿个激活参数,Ling-Plus 则拥有 2900 亿个参数和 288 亿个激活参数。知情人士称,该公司计划利用其开发的大语言模型 Ling-Plus 和 Ling-Lite 的最新突破,为包括医疗保健和金融在内的行业提供人工智能解决方案。

根据一系列综合评估基准, 参数大小相似的情况下,在有限的资源和预算约束下训练的 Ling-Lite 模型,英语理解能力与 Qwen2.5-7B-Instruct 相当,同时优于 Llama3.1-8B-Instruct 和 Mistral-7B-v0.3-Instruct;在数学和代码基准测试中,Ling-Lite 的性能与 Qwen2.57B 相当,优于 Llama3.1-8B 和 Mistral-7B v0.3。

同样的前提条件下,Ling-Plus 模型与 DeepSeek 等前沿开源模型性能不相上下。Ling-Plus 的英语理解能力与 DeepSeek-V2.5-Chat 和 Qwen2.5-72B-Instruct 相当,在 GPQA 数据集上的得分还高于 DeepSeekV2.5,在事实知识基准 SimpleQA 上与 DeepSeek-V2.5 的表现相似。在数学和中文的测试上,Ling-Plus 的总体性能与 Qwen2.5-72B 相近,较高于 DeepSeek-V2.5 和 Llama3.1-70B 的基准得分。代码测试中,Ling-Plus 的得分与 Qwen2.5-72B 相当、整体略低于 DeepSeek-V2.5 。

不过,蚂蚁强调,Ling-Plus 模型不如 DeepSeek V3。

此外,Ling-Plus 在五种不同的硬件配置对 9 万亿个 token 进行了预训练,使用高性能硬件配置(设备 D)训练 1 万亿个 token 估计需要花费约 635 万人民币;相比之下,使用较低规格的硬件系统可将成本降至约 508 万人民币,节省了近 20% 的成本。

痛苦教训:
微小差异都会改变训练结果

LLM 训练是一个具有挑战性和资源密集型的过程,往往伴随着各种技术困难。错误和异常情况很常见,有些问题相对容易解决,有些问题则需要花费大量时间和精力。

“在超大规模模型的训练过程中,与硬件相关的因素和对网络结构看似微小的修改都会对模型的稳定性和收敛性产生重大影响。”蚂蚁团队在报告中提到。具体来说,蚂蚁在整个过程中遇到了损失发散、损失尖峰和专家负载不平衡等挑战。

其中,保持均衡的专家利用率对于 MoE 模型的有效性至关重要。大范围的损失峰值会导致突然的梯度激增,从而破坏路由平衡,严重破坏专家负载平衡。一旦专家失衡,问题就会升级,导致整个模型普遍不稳定。通过将尖峰缓解技术与平衡损失和上述路由器 zloss 相结合,蚂蚁才成功地实现了包含数千亿个参数的 MoE 模型的稳定训练。这种方法带来了稳定的损失轨迹,没有观察到损失发散、大范围损失尖峰或专家路由平衡中断的情况。

同时,LLM 在不同平台间迁移训练面临多方面挑战,这主要是因为基础操作的实现方式和框架层面存在差异,可能会导致训练结果不同,凸显了严格的对齐策略的必要性。为推动 Ling 在多个平台上的迁移,蚂蚁开展了大量预备实验,旨在确保跨平台基本操作和通信算法的一致性,并考虑到数值计算中固有的微小精度误差。在验证这些基础组件后,他们才进行大规模大语言模型的训练。

然而,事实证明,仅验证基本操作不足以实现无缝的跨平台迁移。在后续训练阶段,他们又观察到迁移后不同平台之间的损失收敛情况存在显著差异。为解决这一问题,其将对齐工作从基本操作扩展到框架本身。这个过程需要消除所有潜在的差异源;否则,就无法确定错误的根本原因。因此,他们实现了两个平台上包括矩阵乘法(matmul)和线性变换在内的基本操作的完全对齐。

在框架层面,其处理了诸如注意力机制、多层感知器(MLPs)和路由组件等模块在实现过程中的差异,以避免浮点运算导致的精度误差,通过这些努力实现了跨平台前向传递计算的完全对齐。此过程中,他们解决了张量并行(TP)变化和辅助损失计算引发的问题,并纠正了某些通信操作中的错误。在反向传递计算时,借助前向传递对齐过程中获得的经验,他们能够高效识别并纠正梯度传播中的错误,尤其是路由组件中的错误。

虽然这些问题在单独出现或单元测试时可能看似微不足道,但在整个训练过程中,它们的累积效应会对大语言模型的收敛结果产生重大影响。即使是微小的差异,经过多次迭代叠加,也可能导致最终损失收敛出现巨大偏差。

结   语

据一位知情人士称,蚂蚁集团现在虽仍在使用英伟达的产品进行人工智能开发,但在其最新模型的训练中,目前主要依赖来自 AMD 以及国产厂商的替代芯片产品。

如果这些国产芯片流行起来,可能会影响英伟达目前作为受欢迎人工智能芯片生产商所享有的地位。尽管现在英伟达的芯片仍然非常抢手,性能也较为强劲,但一直存在严格的出口管制。今年早些时候,自 DeepSeek 展示了如何以远低于 OpenAI 和谷歌母公司 Alphabet 数十亿美元的投入训练出高性能模型后,英伟达的股价就一度短暂下跌。

参考链接:

https://www.bloomberg.com/news/articles/2025-03-24/jack-ma-backed-ant-touts-ai-breakthrough-built-on-chinese-chips

https://arxiv.org/pdf/2503.05139

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

 会议推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文




图片
你也「在看」吗?👇

谢邀,人在实验室,刚摸完GPU。

我觉得蚂蚁的这个事情,最重要的是提振了信心!之前大家都在说“大力出奇迹”,好像算力就是万能的,现在看来,算法和工程优化也能起到关键作用。对于国内其他AI公司来说,这意味着在算力之外,还有很大的提升空间。可以更加注重人才培养,加强在算法、框架、系统等方面的研发投入,而不是一味地追求算力堆砌。

另外,我觉得这个事情也暴露了一些问题,比如国内AI芯片的生态还不够完善,需要更多像蚂蚁这样的公司参与进来,共同推动国产AI芯片的发展。总之,路漫漫其修远兮,吾将上下而求索!

开源模型最大的意义在于“知识共享”和“技术普惠”。

知识共享: Ling系列 MoE 模型的开源,意味着蚂蚁集团将其在模型结构、训练方法、优化策略等方面的经验分享给了整个社区。这对于国内AI从业者来说,是一个宝贵的学习机会,可以帮助他们更好地了解 MoE 模型的原理和实践。

技术普惠: 开源降低了AI的应用门槛,让更多人可以参与到AI的创新中来。例如,一些初创公司或个人开发者,可以直接基于 Ling 系列模型进行二次开发,构建自己的AI应用,而无需从零开始训练模型。

当然,开源也存在一些挑战,比如模型的可控性、安全性等。但是,从整体来看,开源对于推动AI的发展具有重要的积极意义。

啊,说到LLM训练的坑,那简直是一把辛酸泪!我之前遇到过一个很奇怪的问题,loss一直降不下去,各种调参都无效。后来才发现,是数据预处理的时候,有一个环节出了问题,导致数据集中混入了一些噪音数据。解决办法也很简单粗暴,把数据重新清洗一遍就好了。

所以说,LLM训练真的需要耐心和细心,任何一个微小的细节都可能影响最终结果。一定要对数据、模型、代码进行全面的检查,才能避免掉进坑里。

有一说一,开源是加速技术进步的最好方式!你想想,如果所有东西都藏着掖着,那技术发展得多慢啊?开源就像一个巨大的乐高积木,每个人都可以基于别人的成果进行创造,不断堆叠出新的东西。

Ling系列MoE模型的开源,相当于给国内AI领域提供了一套高质量的积木。大家可以在这个基础上进行各种各样的尝试,比如改进模型结构、优化训练方法、拓展应用场景等等。我相信,在开源的推动下,国内AI技术一定会取得更大的进步!

要说印象最深的坑,那必须是梯度爆炸!当时我训练一个Transformer模型,结果loss直接飙升到无穷大,直接把服务器搞崩了。查了半天,才发现是学习率设置得太高了。后来把学习率调低,并且加入了梯度裁剪,才解决了这个问题。

梯度爆炸真的是一个很常见的问题,尤其是对于深层模型来说。一定要注意监控训练过程中的梯度变化,及时调整学习率和梯度裁剪参数。不然,一不小心就会功亏一篑。

我之前帮公司训练一个生成古诗词的模型,结果训练出来的东西,要么狗屁不通,要么就是抄袭名句。后来发现是训练数据的问题。一开始我直接用了网上爬的古诗词数据,良莠不齐,有很多质量很差的“伪古诗”。

后来我痛定思痛,花大力气整理了一份高质量的古诗词数据集,并且加入了作者、年代等信息,让模型更好地理解古诗词的内在规律。效果立竿见影,训练出来的模型终于能像模像样地写出一些有韵味的古诗了。

这个经历告诉我,数据质量是LLM训练的基石,一定要重视数据的收集、清洗和标注。

蚂蚁的这个突破,给国内AI企业指明了一条新道路:技术创新不一定要在最先进的硬件上卷,可以在现有资源下深挖潜力。与其拼命烧钱买高端GPU,不如在算法优化、模型结构、训练策略上下功夫,走出一条差异化竞争的道路。比如,DLRover这个开源项目,就能帮助大家更好地进行分布式深度学习,减少资源消耗。

当然,这并不意味着我们不需要高端GPU,而是说,在GPU受限的情况下,依然可以通过技术创新实现突破。 这也激励我们关注国产芯片的发展,相信未来国产芯片也能在AI领域发挥更大的作用。

这个问题问得好!我觉得最大的借鉴意义在于,它证明了不一定非得依赖国外的高端GPU才能搞好AI,国产芯片加上扎实的技术优化,一样可以做出媲美国外先进水平的模型。这对于那些预算有限,又想在AI领域有所作为的国内公司来说,无疑是一个很大的鼓舞和方向。

而且,这种降本增效的模式,能够让AI技术更广泛地应用到各个行业,加速整个社会的人工智能化进程。不过,具体怎么借鉴,还得结合各家公司的实际情况,不能生搬硬套,蚂蚁集团的方案里有很多针对自身业务特点的优化。

这绝对是好事儿!开源意味着大家可以免费使用、学习、修改这些模型,这能大大降低AI研究和应用的门槛。尤其是对于那些资源有限的小公司和研究机构来说,可以直接站在巨人的肩膀上,加速技术创新。

而且,开源还可以促进社区的交流和合作,大家可以共同改进模型,发现潜在的问题,这有助于提高模型的质量和鲁棒性。总而言之,开源是推动AI发展的重要力量,希望以后能有更多像Ling系列这样的模型开源出来。