原文标题:解决大模型的低比特量化与终端部署,我们请来微软亚研分享多项创新
原文作者:机器之心
冷月清谈:
该研究主要体现在以下几个方面:
-
**BitBLAS:**基于 Tile 的计算抽象,设计了一系列计算表达和转换机制,让硬件有限的计算指令可支持各种低精度计算,并开源了端到端低精度编译系统 Ladder 和混合精度算子库 BitBLAS,为 Ampere, Volta 等 GPU 提供了 FP8、FP4 等最新数据类型的支持。
-
**T-MAC:**基于查找表的方法,设计了混合精度矩阵乘算子库 T-MAC,将传统的以数据类型为中心的乘法转变为基于位的查找表操作,实现了一种统一且可扩展的混合精度矩阵乘法解决方案,并与原始的 llama.cpp 框架相比,性能提升了 4 至 5 倍,甚至比专用的 NPU 加速器还快 2 至 3 倍。
-
**LUT TENSOR CORE:**提出了一种软硬件协同优化的设计,定制优化硬件实现,并设计了 LMMA 指令与对应的编译栈,在低比特大语言模型的推理上取得了一个数量级的计算密度与能效比提升。
怜星夜思:
2、低比特量化如何解决大模型终端部署的挑战?
3、微软亚洲研究院在低比特量化和大模型终端部署方面有哪些贡献?
原文内容

为了大幅降低存储和计算成本并提升推理效率,低比特量化技术已成为实现大模型在资源受限设备上高效运行的关键技术之一。
然而,如果硬件设备不支持低比特量化后的数据模式,那么低比特量化的优势将无法发挥。
为了充分利用低比特量化的优势,让硬件设备能够直接支持混合精度矩阵乘法,确保大模型在端侧设备上的高速有效运行,微软亚洲研究院的研究员们针对现有 CPU、GPU 计算算子和硬件架构进行了创新。
此前,机器之心已经在《》一文中介绍了相关工作。
现在,为了更好的帮助大家了解这项研究,机器之心最新一期线上分享邀请到了微软亚洲研究院系统组研究员曹士杰,并同时邀请到了微软亚洲研究院系统组实习生王磊、魏剑宇、莫志文,带来一期系列分享《低比特大语言模型的高效部署》,全面为大家解读他们近期的工作。
开场嘉宾:曹士杰,微软亚洲研究院系统组研究员。研究方向为深度学习高效推理,模型压缩与加速,领域定制计算,特别是低比特大语言模型及其系统和硬件加速。
分享嘉宾介绍
分享嘉宾 1:王磊,微软亚洲研究院系统组实习生。研究兴趣为机器学习系统与编译,在 MLSYS、ASPLOS、OSDI 上发表过论文,同时获得了 PPoPP 2024 最佳论文奖。
论文题目:BitBLAS: Enabling Efficient Low-Precision Deep Learning Computing through Hardware-aware Tensor Transformation
分享摘要:低精度量化方法在大模型部署中被广泛应用,然而有限的硬件支持为低精度量化方法的应用和发展带来挑战。该研究基于 Tile 的计算抽象,设计了一系列计算表达和转换机制,让硬件有限的计算指令可支持各种低精度计算,并基于此开源了端到端低精度编译系统 Ladder 和混合精度算子库 BitBLAS。
BitBLAS 不仅为 Ampere, Volta 等 GPU 提供了 FP8、FP4 等最新数据类型的支持,而且高效支持 GPTQ、BitNet 等所需的混合精度计算。
相关链接
-
链接:https://www.usenix.org/conference/osdi24/presentation/wang-lei
-
Github:https://github.com/microsoft/BitBLAS
分享嘉宾 2:魏剑宇,微软亚洲研究院系统组实习生。研究兴趣为深度学习系统,包括端侧部署、算子优化、算法系统协同设计。
论文题目:T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge
分享摘要:T-MAC 是基于查找表(LUT,Look-Up Table)方法的混合精度矩阵乘(mpGEMM)算子库,帮助低比特量化的大模型在 CPU 上实现高效推理。T-MAC 的核心思想在于将传统的以数据类型为中心的乘法转变为基于位的查找表操作,实现了一种统一且可扩展的混合精度矩阵乘法解决方案,并且消除了所需的乘法操作并减少了加法操作。
T-MAC 与原始的 llama.cpp 框架相比,性能提升了 4 至 5 倍,甚至比专用的 NPU 加速器还快 2 至 3 倍。
相关链接
-
链接:https://arxiv.org/abs/2407.00088v1
-
Github:https://github.com/microsoft/T-MAC
分享嘉宾 3:莫志文,微软亚洲研究院系统组实习生。研究兴趣为机器学习硬件与系统优化,包括专用架构设计、数据流探索与性能剖析建模。
论文题目:LUT TENSOR CORE: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration
分享摘要:低比特权重量化被广泛应用于大语言模型以提升计算效率,然而现有硬件缺乏所需的混合精度矩阵乘法(mpGEMM)的原生支持,限制了低比特权重量化方法的计算性能。为此,LUT Tensor Core 提出了一种软硬件协同优化的设计,定制优化硬件实现,并设计了 LMMA 指令与对应的编译栈,在低比特大语言模型的推理上取得了一个数量级的计算密度与能效比提升。
相关链接
论文链接:https://arxiv.org/abs/2408.06003
直播间:关注机器之心机动组视频号,立即预约直播。
机动组技术交流群:添加小助手好友备注「研究方向」,获取行业一手资讯,欢迎大家进群聊聊。
机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。