AICon 2024:腾讯、华为、微软、阿里专家共探大模型推理优化

AICon 2024 汇聚腾讯、华为、微软、阿里专家,探讨大模型推理优化策略,涵盖模型、框架、硬件等多层面优化实践。

原文标题:腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon

原文作者:AI前线

冷月清谈:

AICon 2024 大会上,来自腾讯、华为、微软、阿里的专家分享了大模型推理性能优化的实践经验。文章重点介绍了四个主题演讲:

* **腾讯**:混元 AngelHCF 推理加速框架,通过模型结构创新、底层性能调优和智能调度等策略,实现性能突破。
* **华为**:昇腾推理技术,聚焦算子融合、模型量化和协同优化,充分利用昇腾硬件加速库和图编译技术。
* **微软**:以 KV 缓存为中心的长文本方法优化,解析长文本处理的挑战和应对策略,以及KV缓存技术趋势。
* **阿里云**:大模型推理的跨层优化,从模型架构到硬件层的深度融合,提供推理部署优化指南。

这些分享涵盖了模型优化、推理加速和工程优化三大方向,旨在帮助开发者应对算力挑战,提升推理效率,并为大模型的实际应用提供参考。

怜星夜思:

1、文章中提到了多种大模型推理优化方法,例如模型量化、剪枝、蒸馏、KV缓存优化等。你认为在实际应用中,选择哪种或哪几种方法组合最为有效?为什么?
2、文章中多次提到了算力瓶颈的问题,除了文章中提到的优化方法,你认为还有哪些可能突破算力限制的潜在方向? 例如文章多次提到的异构计算方向
3、腾讯的 AngelHCF 框架和华为的昇腾推理技术都提到了针对 MoE 模型的优化策略,MoE 模型有什么特殊性,使得它需要特殊的优化策略?

原文内容

在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而推理性能优化正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。

当前,大模型推理性能优化主要围绕模型优化、推理加速与工程优化三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可用性与扩展性的推理服务体系。

在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人王德山担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~

向乾彪 – 腾讯推理架构师

向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架AngelHCF。这一框架不仅在算子设计、通信优化、架构调整等方面进行了全面探索,更在实际应用中针对混元 LLM 大语言模型取得了显著的成本和性能优势。 在他的专题演讲《腾讯混元 AngelHCF 推理加速框架优化实践》中,将详细介绍了以下几个关键内容:

  • 混元模型与推理加速框架概述:以腾讯混元模型为背景,他将深入阐述 AngelHCF 框架的设计理念与核心技术;

  • 混元 Turbos Hybrid 推理优化与 Mamba Hybrid 模型优势:从模型结构创新出发,他将探讨如何通过混合模式优化实现整体性能跃升;

  • Kernel、显存与 KVCache 优化细节:他将涉及到底层性能调优的各项技术,通过显存及 KVCache 优化显著降低资源消耗;

  • 超大规模 MoE 模型并行策略:针对万亿参数级的 MoE 模型,他将介绍通过混合切分策略、模型压缩和 PD 分离部署等措施,有效缓解通信瓶颈并提升推理效率;

  • 智能调度与计算通信重叠策略:他还将探讨如何通过请求智能调度和计算通信的重叠优化,确保在大规模推理环境下系统平稳高效运行。

这场分享将使听众未来能够深入了解在混元 Turbos Hybrid 结构下如何实现性能突破,并展示腾讯在大模型推理加速领域的前沿实践,为参与者提供诸多思路和启发。

张君 – 华为高级开发工程师

作为华为昇思 AI 框架(昇思)核心开发者之一,他在解决大模型在计算、内存及通信等方面的瓶颈问题上,积累了丰富的工程经验。张君的演讲主题为《华为昇腾推理技术的优化实践》,他将从以下几个层面展开讨论:

  • 大模型推理加速的技术难题与解决方案:他将聚焦于推理过程中的算子融合、模型量化及 Attention 容量压缩,旨在降低计算成本;

  • 模型层、框架层及算子层的协同优化:他将解析如何利用昇腾硬件的加速库(如 ATB)、图编译技术(TorchAir)以及 PD 分离部署技术实现多层次的性能提升;

  • 动态批处理与前沿融合算子设计:他还将介绍动态批处理技术(Dynamic Batching)和高效算子设计的实际应用案例,以展示如何最大化硬件资源的使用效率。

通过这场演讲,听众将会全面了解华为昇腾平台在大模型推理技术优化方面的实践经验,并体会到从算法到硬件的全链路提升在未来带来的巨大潜力与实际收益。

姜慧强 – 微软亚洲研究院研究开发工程师

姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿方向,为大语言模型的高效推理提供了多维度创新解决方案。

在《以 KV 缓存为中心的高效长文本方法的优化和实践》这一专题演讲中,姜慧强将从技术应用角度出发,全面解析长上下文大语言模型在推理过程中的挑战及应对策略。演讲主要聚焦以下几个方面:

  • 长文本应用的推理瓶颈:他将详述长文本处理所带来的计算与内存压力,并剖析现有基准测试忽略 KV 缓存全生命周期的局限;

  • KV 缓存为核心的架构设计:他将介绍如何围绕 KV 缓存生成、压缩、检索和加载等环节进行优化,并阐明这些措施在实际应用中可能带来的突破效果;

  • SCBench 基准测试工具的应用:他将展示 SCBench 的设计理念和实验数据,对比常规推理优化方法与 KV 缓存策略的综合性能;

  • 技术趋势与发展展望:他将对比当前各大 LLM 供应商在 KV 缓存技术上的不同做法,展望长文本高效推理的未来演进方向。

听众从他的演讲中可以了解到前沿高效长文本方法的设计思路和方法,更好低降低推理成本。

李元龙 – 阿里云技术专家

李元龙在阿里云负责大模型在 B 端客户的应用方案设计与落地,致力于模型训练与推理技术的全链路优化实践。在题为《超越算力瓶颈,大模型推理的跨层优化前沿实践》的演讲中,李元龙将为听众带来一场涵盖多个层次的技术分享,主要内容包括:

  • 大模型推理全链路剖析:从 Transformer 前向传播核心流程出发,系统解析各关键模块的设计及其优化空间;

  • 模型架构层至硬件层的深度融合:将介绍从模型、框架、编译到硬件加速的整体优化策略,包括 PyTorch 动态图编译、算子优化和 CUDA 并行计算策略等;

  • 跨层协同优化策略与实战经验:深入讲解垂直分层与横向协同的技术体系,以及动态计算图与稀疏激活模式等前沿技术,展示如何有效突破算力瓶颈;

  • 未来推理性能提升的全景展望:将探讨模型并行、硬件选型和通信重叠等新思路,并提供具体的落地方案和实践指南。

他的分享为听众提供简明扼要的推理部署优化指南,可以使用户快速找到适合自己场景的模型推理部署策略。

活动推荐:

AICon 人工智能开发与应用大会将于 5 月 23-24 日举办,聚焦多模态、Agent、端侧智能、模型推理等前沿技术,内容丰富,干货满满,诚邀大家线下相聚!在这里,你将深入了解 AI 技术在各领域的最新实践与落地路径,包括:

  1. Motiff 妙多与《麦琪的花园》游戏技术高管分享 AI 原生产品从战略构想到实际落地的核心方法;

  2. 科技企业如何借力新加坡及全球生态体系,把握关键节点,实现技术突破与市场落地;

  3. 多领域 Agent 应用的落地案例,涵盖代码自动化、企业培训、金融智能化等方向,探索背后的挑战与解决方案;

  4. 硬件终端如智能眼镜、词典笔等前沿产品的应用场景与关键技术突破;

  5. 多模态大模型的实践探索:从长视频理解、多模态训练,到 AIGC 在视频与游戏创作中的创新赋能;

  6. 50+ 行业专家共聚,深度解析大模型的最新进展与前沿趋势。

我认为突破算力限制的潜在方向有很多,除了异构计算,还可以考虑以下几个方面:

1. 并行计算: 通过将计算任务分解为多个子任务,并在多个处理器上并行执行,可以显著提高计算速度。
2. 分布式计算: 将计算任务分配给多台计算机进行处理,可以有效利用集群的计算资源。
3. 专用硬件加速器: 针对特定类型的计算任务,设计专用硬件加速器,如TPU、NPU等,可以实现更高的性能。
4. 算法优化: 通过改进算法,减少计算量,例如使用更高效的矩阵乘法算法,或者使用近似算法来降低计算复杂度。
5. 新型计算架构: 探索新型计算架构,如量子计算、光计算、忆阻器计算等,有望突破传统冯·诺依曼架构的限制。

除了文章里提到的,我觉得异构计算非常有潜力。充分利用CPU、GPU、FPGA等不同硬件的优势,针对不同的计算任务选择最合适的硬件进行加速。此外,存算一体化也是一个值得关注的方向,将计算单元更靠近存储单元,减少数据搬运的开销。最后,还可以考虑使用新型计算架构,比如量子计算或者光计算,虽然目前还处于早期阶段,但未来可能会带来颠覆性的突破。

这取决于具体的应用场景和模型特性。如果对精度要求不高,且资源有限,量化和剪枝是很好的选择,可以显著降低计算复杂度。如果模型本身比较复杂,蒸馏可能更适合,可以在保持性能的同时压缩模型。对于长文本应用,KV缓存优化至关重要。很多时候,最佳方案是多种方法的组合,例如先量化再剪枝,或者量化后进行蒸馏。总之要结合实际情况进行权衡。

MoE模型最大的特点就是“大”和“稀疏”。它包含大量的参数,但每次推理时只激活一小部分参数(expert),这就带来了独特的挑战。一方面,如何高效地路由请求到合适的expert,避免不必要的计算,是一个关键问题。另一方面,如何管理和分配大量的参数,避免内存瓶颈,也是一个挑战。通用的优化策略可能无法很好地解决这些问题,因此需要针对MoE模型的特殊性进行定制化的优化。

在实际应用中,选择推理优化方法需要考虑多个因素,包括模型大小、硬件资源、延迟要求和精度要求。例如,对于资源受限的边缘设备,模型量化和剪枝是降低计算复杂度的有效方法。对于需要处理长序列的场景,KV缓存优化可以显著提高推理效率。此外,一些新兴技术,如结构化稀疏和动态稀疏,也可以在不损失过多精度的情况下实现显著的加速。因此,最佳选择往往是多种技术的组合,并根据具体情况进行调整。

MoE(Mixture of Experts)模型由多个“专家”子网络组成,每个子网络处理不同类型的输入数据。MoE 模型的特殊性在于:

1. 参数规模巨大: MoE 模型通常具有非常大的参数规模,导致内存占用和计算量都非常高。
2. 稀疏激活: 在推理过程中,只有少数几个“专家”子网络会被激活,这意味着大部分参数都是闲置的。
3. 负载不均衡: 不同“专家”子网络的负载可能差异很大,导致计算资源利用率不平衡。

因此,针对 MoE 模型的优化策略需要解决以下问题:

* 如何高效地存储和加载大规模参数?
* 如何快速地选择合适的“专家”子网络?
* 如何均衡各个“专家”子网络的负载?

我觉得没有绝对的“最佳”方法,只有最适合的方法。模型量化适合对精度要求不高的场景,追求速度优先。模型剪枝像是“断舍离”,把不重要的部分砍掉,适合瘦身。蒸馏有点像“名师出高徒”,用小模型学习大模型的精华。KV缓存优化则是针对长文本的“记忆增强”。具体用哪个,或者组合使用,要看你的数据、模型和硬件,得做实验才能找到最优解。