阿里云升级AI基础设施:FlashMoE加速MoE模型训练,数据库引入In-DB AI

阿里云升级AI基础设施,FlashMoE加速MoE模型训练,数据库引入In-DB AI,为AI大规模应用提供坚实后盾。

原文标题:MoE模型已成新风口,AI基础设施竞速升级

原文作者:机器之心

冷月清谈:

文章介绍了阿里云在AI基础设施领域的最新进展,重点围绕MoE模型和推理模型展开。针对MoE模型,阿里云推出了FlashMoE高性能训练框架,提升模型训练效率。同时,阿里云在算力、存储、网络和安全等方面进行了全面升级,例如ECS第9代实例、灵骏集群、CPFS高性能存储和OSS对象存储服务。此外,阿里云还推出了PAI-Chatlearn和Post-training on PAI-DLC等模型构建工具,并对数据库产品进行了智能化升级,包括实现模型即算子的In-DB AI功能和采用Data+AI的设计理念。阿里云致力于构建强大的AI基础设施,为开发者和企业提供高效、稳定的计算资源,推动AI的大规模应用。

怜星夜思:

1、MoE模型在实际应用中,除了文章中提到的挑战,还可能遇到哪些问题?例如,数据隐私、模型部署等方面?
2、阿里云的FlashMoE框架,如果和其他MoE训练框架(例如Megatron-LM、DeepSpeed)相比,有哪些优势和劣势?
3、文章提到阿里云数据库实现了Model as an Operator,将模型内嵌到数据库中。这种做法有哪些潜在的安全风险?应该如何防范?

原文内容

机器之心报道

编辑:Panda


因为基准测试成绩与实际表现相差较大,近期开源的 Llama 4 系列模型正陷入争议的漩涡之中,但有一点却毫无疑问:MoE(混合专家)定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越来越多的 MoE 架构模型正在进入世界最前沿模型之列,以至于英伟达也已开始针对 MoE 架构设计和优化自家的计算硬件。


但是,MoE(尤其是大规模 MoE)也会给 AI 基础设施带来不一样的挑战。昨天,在 AI 势能大会下午的 AI 基础设施峰会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华就谈到了 MoE 架构特有的一些困难,包括 token drop 选择对吞吐的影响、在路由专家与共享专家之间考虑效率和效果的权衡、专家的选取数量和比例等。


汪军华表示 AI 范式正在向 MoE 和推理模型演进


阿里云已经在解决这些难题上取得了重大进展。峰会上,针对 MoE 架构的模型,阿里云宣布基于 PAI-DLC 云原生分布式深度学习训练平台推出了 FlashMoE,这是一款支持超大规模 MoE 混合精度训练的高性能训练框架,具有多种强大特性,包括支持多种 token 路由策略、支持上下文并行与张量并行解耦等。


当然,阿里云在 AI 基础设施上的布局远不限于 MoE。无论是硬件算力的投入,还是一体化的训练和推理服务,它都在用硬核实力夯实自己的领先地位。在这场 AI 基础设施的竞赛中,阿里云已然抢占先机。


从算力到安全

阿里云这样构建 AI 基础设施


从算力基础到弹性灵活的解决方案,再到存储与网络技术,以及至关重要的安全能力,阿里云正在不断演进面向 AI 时代的基础设施,以提高其产品力和用户体验。


首先,在基础算力方面,阿里云宣布 ECS 第 9 代 Intel 企业级实例正式开启商业化,其基于英特尔第六代至强处理器 GNR,搭配阿里云最新 CIPU 架构,可让集群性能相对前代提升最高达 20%,同时价格较上代再降 5%。


今年也是阿里云弹性计算 15 周年,AI 驱动的阿里云基础设施将持续面向更高性能、更稳定的架构和产品深入演进。



在强大算力的基础上,阿里云还在对灵骏集群不断进行优化。阿里云智能集团副总裁、阿里云智能弹性计算、存储产品线负责人吴结生表示:「我们针对 AI 负载进行了大量优化,把灵骏集群构造成了云超级计算机。」总结起来,灵骏集群的技术体系包含 4 个创新点,包括 HPN 高性能网络、CPFS 高性能文件存储、定制化的 AI 服务器以及强大的故障检测能力。


首先,在网络技术方面,阿里云设计的 HPN 7.0 高性能网络架构是灵骏集群的核心网络技术,能让机器更高效、更紧密的合作。实际效果上,利用 HPN7.0 高性能网络架构,可实现单集群10 万张 GPU 卡互联,同时提供 3.2T 跨机带宽。


其次,值得一提的是灵骏管控和自愈系统,这能降低故障频次,缩短故障恢复时间,从而增强集群的稳定性,提高算力的使用率 —— 在万卡级超大规模训练中,一个月内灵骏 GPU 集群有效训练时长占比超过 93%。



为了保证 AI 业务稳定,算力很重要,高性能且可靠的存储也必不可少。对此,阿里云给出的解答是 CPFS(Cloud Parallel File Storage)高性能存储与 OSS(Object Storage Service)对象存储服务。


其中,CPFS 适用于高性能计算,支持对数据毫秒级的访问和百万级 IOPS 的数据读写请求,能实现 40 GB/s 的单客户端吞吐性能。


CPFS 还针对 AI 应用进行了优化,在实现高性能并行的同时,还支持端侧缓存和分层存储(包括 KV Cache),从而能高效率和低成本地满足 AI 的训推需求。


OSS 则适用于存储大量非结构化数据,适用于多种计算引擎和 AI 框架,具有海量、安全、易集成、低成本、高可靠的优势。在 AI 基础设施峰会上,阿里云宣布推出高性能的 OSSFS 2.0,这是一款专门用于通过挂载方式高性能访问 OSS 的客户端,它具备出色的顺序读写能力,可充分发挥 OSS 的高带宽优势。此外,阿里云还宣布首次将缺省 100 Gbps 吞吐性能扩展到了海外(新加坡)。OSS 同城冗余也已在吉隆坡上线,现已覆盖全球 12 个地域。



阿里云也为 CPFS 和 OSS 之间的数据流动构建了高速、高带宽的通道,使训练或推理框架可以通过文件系统的接口访问 OSS。


安全与稳定性同样也是许多 AI 应用开发者关注的核心问题之一,而阿里云已经构建了一整套用以保障算力稳定供给和数据安全的体系,其中包括 20 多款云产品和近百项可一键开启的安全能力。


面向 MoE 结构和推理模型

AI 范式正在演进


正如开篇所说,MoE 模型架构与推理模型正在不断推动 AI 训推的范式升级,在本次发布上,阿里云人工智能平台 PAI 针对性地推出一系列新能力。


在模型构建方面,针对推理模型,阿里云推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一种支持 RLHF、DPO、OnlineDPO、GRPO 等多种强化学习算法的大规模对齐训练框架,同时也支持用户自己开发的强化学习算法,并且适配 Megatron、vLLM、DeepSpeed 等多种框架。不仅如此,PAI-Chatlearn 还是开源的。而后者则包含 SFT 等后训练能力,支持 Ray on DLC、统一调度、Serverless、Ray Dashboard 和开发机等功能。


而对于 MoE 模型,前文已经提到了基于 PAI-DLC 的 FlashMoE,其实际表现可说是相当亮眼:在万卡规模上,可将 MoE 训练的 MFU(模型 Flops 利用率)提升到 35-40%。


而在推理加速方面,阿里云同样没有落下。直接上数据。


首先,阿里云推出的全新模型权重服务将 1-100 节点的冷启动速度提升了 21 ;如果从 50 个节点扩容到 100 个节点,则分布式推理系统的规模化扩容效率可提升 12 倍


而基于 KV Cache 的分布式推理服务 PAI-EAS 可将千万级活跃用户场景的 KV Cache 命中率提升 10 倍!基于 3FS 的存储系统 IO 效率获得了大幅提升(读吞吐提升了 43%,写吞吐提升了 27%)。


另外,PAI-EAS 具备负载感知的 PD 分离架构,端到端服务吞吐提升 91%



针对 MoE 模型,阿里云宣布推出了针对性的分布式推理引擎 Llumnix,通过在请求层面、请求内和硬件并行策略方面的精心设计,相比于 Round-robin 请求调度方案,可将 TTFT(首 token 延迟)降低 92%(P99),将 TPOT(每输出 token 延迟)降低 15%(P99)。


此外,阿里云也对云原生大数据服务 MaxCompute 进行了全面的 AI 升级,发布了 AI Function,可支撑用户构建 Data+AI 一体化工作流。


同时,阿里云在会上宣布大数据 AI 产品全面拥抱 MCP,大数据开发治理平台 DataWorks 发布基于 MCP 的 Agent 服务,DataWokrs 和 Hologres 发布了 MCP Server。



智能时代的数据库

让数据和 AI 更近


有了高效算力和平台,要创造足够好的 AI 应用,数据也是必不可少的一环。正如阿里云智能集团副总裁、阿里云智能数据库产品事业部负责人李飞飞说的那样:数据、算法、算力是智能时代的三大要素。因此,对数据库范式的革新也必不可少。那么智能时代对数据库的最核心需求是什么呢?李飞飞认为是「对多模态数据的智能化管理」。


为此,阿里云正在不断创新。此次峰会上,阿里云重点介绍了其数据库产品的一系列重磅升级。


首先,阿里云宣布实现了模型即算子(Model as an Operator)的 In-DB AI 功能,也就是说可以将模型作为算子直接内嵌到数据库中。这样做具有明显的好处,包括能使用更低的推理成本获得同等的 AI 能力、可以通过 SQL 语句轻松调用、可避免企业私有数据出域。李飞飞表示,阿里云会在今年内让 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。



阿里云在数据库方面的另一大重要举措是采用了 Data+AI 的设计理念。具体来说,通过统一 CPU 和 GPU 资源池,瑶池数据库实现了资源池化,支持分时分片弹性调度,进而帮助客户降本增效。


此外,阿里云还宣布将 Tair 从互联网架构演进成了面向 AI 时代的架构:通过基于 Tair 内存池的 KV Cache 多级管理,可为大模型推理提供高效的 KV Cache 存储和复用。同时,Tair KVCache 还支持多租隔离、资源配额、故障恢复等企业级管理能力。



当然,阿里云数据库产品的升级之路还将继续向前。阿里云透露将于今年下半年发布全球首款基于 CXL(Compute Express Link)交换机的数据库专用服务器。CXL 高速互联技术可以进一步提升三层解耦架构下计算与内存之间的通信带宽与效率。与传统的 RDMA 高速网络相比,CXL 技术可将内存交互的性能提升一个数量级。


用 AI 基础设施支撑智能未来

阿里云准备好了


在 AI 迅猛发展的今天,强大的算力已成为驱动创新的核心动力。阿里云深刻洞察这一趋势,持续加大在 AI 基础设施领域的投入,致力于为全球用户提供高效、稳定的计算资源。


现在,依托于在 AI 基础设施上的创新和投入,阿里云已为开发者和企业搭建了一个坚实的平台,使他们能够专注于算法创新和应用开发,而无需过度关注底层计算资源的限制。而这正是 AI 大规模应用的重要基础。


正如吴结生说的那样:「云计算是一种公共服务。随着 AI 的发展,智能会变成一种资源,就像水和电一样。这样一来,token 就变成了一种商品。云上的算力正在以这种公共服务的方式给大家提供这种商品,从而普及 AI,让 AI 走进千行百业,让 AI 实现大众化和规模化。」



而当智能成为一种「资源」,基础设施的供给能力,也将决定 AI 能走多远、飞多高。


阿里云正携手企业和开发者,共同迈向智能化的未来。在这场奔赴未来的基建竞速中,阿里云,已在路上。


关注飞天发布时刻,及更多精彩发布内容: https://summit.aliyun.com/apsaramoment


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

从技术角度看,FlashMoE的优势可能在于其针对阿里云基础设施的深度优化,例如对HPN网络和CPFS存储的适配,能充分发挥硬件性能。但劣势也很明显,就是对其他硬件平台的兼容性可能不如通用框架。选择哪个框架,取决于你的应用场景和硬件环境,以及对生态和社区的依赖程度。

除了文章里说的那些,MoE模型在现实里落地,数据安全绝对是个大问题。想想看,每个专家模型都要处理特定领域的数据,这些数据可能包含用户的敏感信息。怎么保证这些数据在传递和存储过程中不泄露,是个很重要的议题,得有靠谱的加密和权限管理才行。而且,模型部署也挺麻烦的,得考虑不同专家模型的硬件需求,还得保证它们之间的协同工作,这都需要很强的技术水平才能搞定。

我觉得吧,数据隐私这块儿,得从源头抓起。首先,数据采集要规范,别过度收集用户信息。其次,模型训练要透明,让用户知道自己的数据被用在了哪里。最后,数据使用要可控,用户有权选择退出。至于模型部署,我觉得可以借鉴微服务的架构,把每个专家模型拆分成独立的服务,这样方便扩展和维护。

Model as an Operator这种思路很好,但安全是个大前提。除了权限控制和安全审计,还可以考虑使用沙箱技术,把模型运行在一个隔离的环境里,防止它访问数据库的敏感资源。另外,数据加密也很重要,就算模型被攻破,也无法直接读取加密的数据。

文章里提到了FlashMoE支持多种token路由策略和上下文/张量并行解耦,这些都是很实在的优势,能灵活适应不同MoE模型的特点。但具体和其他框架比,还得看实际benchmark,比如训练速度、显存占用、扩展性等等。如果FlashMoE在这些方面能有明显优势,那就很有竞争力了。劣势可能在于生态,毕竟Megatron-LM和DeepSpeed的社区更成熟,用户更多,工具链也更完善,FlashMoE可能需要时间来追赶。

把模型直接放到数据库里,安全风险肯定会增加。最怕的就是SQL注入攻击,如果攻击者能构造恶意的SQL语句,就能控制模型,甚至读取数据库里的敏感数据。另外,模型本身也可能存在漏洞,被黑客利用。所以,要做好严格的权限控制,防止未经授权的访问。还得对模型进行安全审计,及时发现和修复漏洞。

别看框架名头响,好用才是王道!FlashMoE要是能在阿里云上跑得飞起,那就是它的优势。但如果换个环境就水土不服,那也白搭。所以啊,选框架就跟选对象一样,适合自己的才是最好的!

数据隐私确实是MoE模型应用的一大考量。联邦学习或许是一种解决方案,让各个专家模型在本地数据上训练,然后聚合参数,避免原始数据泄露。另外,差分隐私技术也可以考虑,通过添加噪声来保护个体数据的隐私。模型部署方面,可以考虑使用容器化技术,将每个专家模型打包成独立的容器,方便管理和部署。

我觉得吧,这玩意儿就跟在家里装了个机器人管家一样,方便是方便,但万一被黑客控制了,那可就麻烦大了。所以啊,安全措施一定要到位,防火墙、杀毒软件、入侵检测系统,一个都不能少!