EdgeRazor:面向端侧大模型的低比特量化与蒸馏框架

EdgeRazor 用低比特量化与蒸馏加速端侧大模型,解码最高提升约15倍。

原文标题:解码加速15倍!EdgeRazor助推大模型在PC/移动端“狂飙”

原文作者:机器之心

冷月清谈:

南京大学 LAMDA 与微软 AI 联合推出开源工具库 EdgeRazor,目标是降低大语言模型在 PC、手机、IoT 等资源受限设备上的部署门槛。它采用混合精度量化感知蒸馏 MPQAD,在极低比特量化下尽量缓解模型能力塌陷问题。

文章介绍称,EdgeRazor 在 MobileLLM、Qwen3、Qwen2.5-Omni 等基础模型、指令模型和多模态模型上进行了评测,覆盖常识推理、数学、代码、视频理解等任务,并在多个基线方法上取得更好表现。工程侧,1.58-bit 量化模型在 llama.cpp 与 Apple M4 Pro CPU 环境下测试,磁盘体积约 190MB,解码速度相比 16-bit 基座模型提升约 15 倍。

框架层面,EdgeRazor 提供配置化训练流程,支持混合数据配比,并通过结构化混合精度量化、层自适应特征蒸馏、熵感知 KL 散度三个模块,兼顾压缩率、训练成本与部署效率。

怜星夜思:

1、如果端侧大模型真的能做到“秒回”,你觉得最先被改变的会是哪类应用?
2、1.58-bit、2-bit 这类极低比特模型,压缩这么狠之后,实际使用中最该担心什么?
3、EdgeRazor 这类工具开源后,对个人开发者和小团队的意义大吗,还是主要服务大厂?
4、端侧模型越来越强之后,云端大模型会被替代吗,还是会形成新的分工?

原文内容


近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。


由南京大学机器学习与数据挖掘研究所(LAMDA)和微软 AI 联合推出的开源工具库 EdgeRazor,直击端侧部署的核心痛点,一举打破了极低比特大语言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸馏(MPQAD),不仅保障了更低成本的训练,更支持了灵活的训练数据配比,成功构建出一个开源、即插即用的轻量化框架。论文通讯作者为南京大学 LAMDA 团队张绍群助理教授。



  • 论文标题:EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

  • 论文地址:https://arxiv.org/abs/2605.04062

  • GitHub 链接:https://github.com/zhangsq-nju/EdgeRazor

  • Hugging Face 链接:https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit

  • Playground 链接:https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround


端侧破局:兼得 SOTA 与 15 倍加速


图 1:EdgeRazor 和基线算法在基础型、指令微调型和多模态大模型上的性能表现


全面评测,性能领跑:EdgeRazor 在基础型(MobileLLM-350M)、指令微调型(Qwen3-0.6B/1.7B)和多模态(Qwen2.5-Omni-7B)大模型上开展了系统的性能评测。评测范围包括常识推理、指令遵循、数学推理、代码生成以及视频理解类型的 16 个下游任务。如图 1 所示,面对当前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各类模型架构和比特位宽下均保持性能的领先,确立了全新的 SOTA 性能基准。


图片

图 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手机端部署效果演示


侧部署,丝滑落地:为了展示真实受限资源下的工程落地,EdgeRazor 提供了适配于端侧部署的 DEMO。如图 2 所示,在 PC 端和手机端的 CPU 部署场景下,EdgeRazor 释放出极高的推理潜能。相较于 16-bit 基座模型,其解码速度分别实现了 16× 和 12× 的飞跃,整体端到端响应速度也获得了 10× 和 11× 的大幅提升,真正赋予了本地轻量化模型丝滑、“秒回” 的体验。


图 3:EdgeRazor 和基线算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表现


打破魔咒,拒绝塌陷:在极低比特位宽下,量化模型的复杂推理能力往往最先遭遇灾难性衰退,但 EdgeRazor 打破了这一魔咒。如图 3 所示,在 GSM8K(数学推理)和 HumanEval(代码生成)复杂任务上,现有主流 2-bit 方法普遍出现性能的断崖式下跌,甚至面临彻底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 这种极低比特预算下,依然展现出较好的稳健性,其任务表现显著优于同类 2-bit 方法。


图 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表现和训练开销


十倍轻训,降本增效:高质量的低比特模型往往依赖庞大的训练开销,而 EdgeRazor 彻底打破了这一现状。如图 4 所示,在 MobileLLM-350M 上,EdgeRazor 不仅在全比特位宽下超越了性能最强的 QAT 基线 ParetoQ,更在训练效率上实现了大幅优化。其训练所需的 tokens 数量缩减了 75%–90%(最低仅需 3.1B,而基线高达 30B)。


图 5:EdgeRazor 和基线算法在 Qwen3-0.6B 模型下的量化比例和压缩比


全员量化,刷新极限:传统的量化方法往往因规避精度崩溃而对嵌入层和语言模型头 “手下留情”。如图 5 所示,这导致模型整体的真实量化参数覆盖率仅 73.89%,然而 EdgeRazor 突破了这一妥协,实现了 99.99% 的极高量化参数覆盖率,并且在 1.58-bit 极低比特下达到了突破性的 7.03× 压缩比,远超传统方法 2.94× 的瓶颈。


图 6:EdgeRazor 在 llama.cpp 推理框架上测试 Qwen3-0.6B 的效率表现


EdgeRazor 选取 Qwen3-0.6B 为基座模型,依托开源推理框架 llama.cpp,在纯 CPU 算力环境下(Apple M4 Pro)进行推理效率评测。


  • 百兆体积,轻量部署:如图 6 所示,相较于 16-bit 基座模型,1.58-bit EdgeRazor 量化模型将磁盘占用压缩至 1/5.8(仅约 190MB),峰值运行内存降至 1/2.9。百兆级别的轻量资源占用,扫清了大模型向智能手机、IoT 等内存受限设备迁移的物理障碍。

  • 十五倍速,解码狂飙:如图 6 所示,1.58-bit EdgeRazor 量化模型的预填充吞吐量不仅达到了基座模型的 2.11×,在对用户体验起决定性作用的自回归解码环境,速度更是实现了 15.16× 的爆炸级提升。这标志着端侧大模型迈入 “秒回” 级别的全新阶段。


即插即用:一键训练轻量化大模型


图 7:EdgeRazor 用于轻量化模型训练的流程图


EdgeRazor 不仅在性能与效率上追求极致,在工程易用性上也同样力求开发者友好。如图 7 所示,EdgeRazor 被设计为一个高度模块化的开源工具库。开发者无需精通底层的复杂量化感知蒸馏逻辑,通过统一的配置文件(配置量化比例、目标比特数和蒸馏损失等内容),将庞大的 16-bit 模型训练为 1.58-bit 轻量化模型。其核心使用优势包括:


  • 代码解耦,即插即用:零侵入式设计。只需寥寥数行代码配置,EdgeRazor 就能无缝并入开发者现有的全精度大模型训练流水线,完全不需要重构底层的训练代码。

  • 极简配置,一键启动:EdgeRazor 通过三个输入(16-bit 模型、自由配比的数据和配置文件),即可输出各种低比特模型(例如,1.58-bit 模型)。

  • 混合数据,配比自由:相比于传统的 QAD 方法只支持蒸馏 16-bit 模型的数据进行训练,EdgeRazor 还支持人类标注数据和高质量模型合成数据,训练数据配比自由。

  • 繁杂底层,自动接管:框架内部接管了繁杂的底层操作。从加载各种格式的配置,利用量化选择器为特定层注入量化实现(QAT 模块),到同步计算各种蒸馏损失(KD 模块),全流程自动化闭环。

  • 算力降维,单机可训:告别传统 QAT 方法对庞大算力的依赖(例如,ParetoQ 使用了 16 张显卡,消耗了 30B tokens)。EdgeRazor 在常规单机多卡环境下即可完成训练(相同模型只使用了 8 张显卡,消耗了 3.1B tokens)。


核心架构:三大模块攻克极低比特


图 8:EdgeRazor 框架的核心模块


开发者友好的易用性背后,是核心算法的支撑。如图 8 所示,EdgeRazor 采用混合精度量化感知蒸馏范式来压缩各类型的大模型,其核心创新主要由以下三个模块构成:


  • 混合精度的结构量化(Structural Quantization with Mixed Precision, SQMP):打破传统量化统一位宽的设定。SQMP 支持将 4-bit 和 1.58-bit 在输入通道维度进行细粒度的灵活混合(例如实现 1.88-bit 或 2.79-bit 的平均位宽)。这不仅能精准契合实际硬件的资源预算,交错的 4-bit 高精度行还能作为 “缓冲区”,有效吸收激活异常值带来的量化误差。

  • 层自适应的特征蒸馏(Layer-Adaptive Feature Distillation, LAFD):告别盲目的人工调参。LAFD 通过计算教师模型相邻层的余弦相似度(表征结构变换程度),自适应地找出对特征转换最关键的 Top-k 层进行重点特征蒸馏。从而将 “好钢用在刀刃上”,不仅避免了盲目依赖人工经验去启发地选择蒸馏层,还有效阻止了量化误差在层间的放大。

  • 熵感知的 KL 散度(Entropy-Aware KL Divergence, EAKLD):摆脱了对教师模型生成数据的强依赖。EAKLD 纯粹依靠教师模型输出分布的熵来动态调节前向 KL 散度与反向 KL 散度的比例。这使得 EdgeRazor 能够完美兼容人工标注数据和高质量模型合成数据,实现了训练数据的配比自由。


总结


回归到轻量化的初衷,EdgeRazor 想解决的并不是单纯的 “跑个分”,而是一个更底层且务实的问题:如何通过一套统一的算法框架,让各种架构、各种参数规模的大模型低成本地转化为在资源受限环境(例如,手机和 PC 等端侧设备)下可部署的低比特轻量化版本。其实现的开源工具库打通了 “低成本量化”、“轻量化训练” 与 “极低成本部署” 的 AI 全生态链路,为个人 AI 助理的普惠化与私密化提供有力的解决方案。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


关于 1.58-bit 我想抖个机灵:模型都瘦成这样了,别指望它又跑马拉松又举重。日常聊天、摘要、简单助理可以,但复杂推理最好还是别完全脱离云端大模型。

2 个赞

就“端侧秒回会改变什么”来说,我投语音助手一票。现在很多语音助手卡顿、联网、理解慢,体验很割裂。如果本地小模型能快速响应,哪怕能力没云端强,也会比现在这些“人工智障”更像个助手。

2 个赞

针对“对个人开发者有没有意义”:我觉得意义挺大,但前提是文档和预训练低比特模型足够好。个人开发者未必有资源自己训练,但可以直接拿量化好的模型做本地应用,这比从零研究 QAT 现实多了。

3 个赞

回答“端侧会不会替代云端”:短期不会。端侧更适合高频、低延迟、隐私敏感的任务;云端还是负责复杂推理、大规模知识检索、多模态重任务。更可能是端云协同,而不是谁干掉谁。

2 个赞