阿里云与清华大学联合开源AI大模型推理项目Mooncake

阿里云与清华大学推出Mooncake项目,聚焦大模型推理性能的提升与开源合作。希望共同构建高效生态。

原文标题:官宣开源|阿里云与清华大学共建AI大模型推理项目Mooncake

原文作者:阿里云开发者

冷月清谈:

2024年6月,阿里云与清华大学共同推出了以KVCache为中心的大模型推理架构Mooncake,以提升AI智能助手Kimi的推理吞吐量和降低推理成本。Mooncake项目通过标准化推理实例共享的缓存池化层,实现高效的分布式资源解耦架构,优化大模型推理性能。清华大学MADSys实验室与阿里云的合作不仅推动了大模型资源池化技术在工业界的实际应用,还计划通过开源方式吸引更多开发者和企业加入,共建高性能推理框架的开源生态。阿里云在项目中贡献了多个关键组件的代码,未来将持续与各界力量携手推进大模型技术的创新与发展。

怜星夜思:

1、Mooncake项目如何改变大模型的推理方式?
2、如何看待开源对于AI发展的重要性?
3、Mooncake项目还可以在哪些方面进行改进?!

原文内容

2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图

基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

作为AI基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在Transfer Engine层面,提供阿里云自研eRDMA网络的底层传输路径,并计划提供对于CXL的支持,保证用户能够在云上快速规模化部署。

清华大学MADSys实验室章明星教授表示,通过 Mooncake 可以充分利用AI Infra中的CPU、内存和SSD资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。

我觉得Mooncake的推理方式更灵活,特别是缓存共享的概念,可以大幅提升效率,适应各种应用场景。

我希望能看到更多的文档和案例分享,这样可以更方便大家理解具体的应用场景。

个人认为开源最大的意义在于促进合作,让很多小团队也能参与到大模型的研究中,这样才能推动行业的发展。

或许可以增加一些用户友好的界面,让更多非技术型开发者也能轻松使用这项技术。

感觉Mooncake能让各个大模型框架兼容,不同团队可以更快速地进行搭建和实验,毕竟开发时间不在短期。

大模型推理通常会占用巨量资源,通过资源池化,我们可能会看到更加高效的资源利用率,从而降低成本。

刚看到Mooncake的架构,觉得还是可以在数据处理速度上再优化,尤其是在高并发时的表现。

如果能借助开源的力量,把多方的优势结合起来,未来的AI应用会更加百花齐放,带来更多创新。

开源是推动创新的动力,很多前沿技术其实是在开源社区中不断迭代产生的。