如何把大模型压缩到1bit?论文作者这样说

图片


自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。

来自清华大学、哈尔滨工业大学的研究者大胆地将 LLM 的权重矩阵量化为 1 位,为 LLM 的极低位宽部署铺平了道路。针对这一目标,该研究引入了一个名为 的 1 位量化感知训练(QAT)框架,包括一种新颖的 1 位参数表示方法以更好地量化 LLM,以及一种基于矩阵分解的有效参数初始化方法以提高收敛性 QAT 框架的速度。实验结果表明,OneBit 在仅使用 1 位权重矩阵时通过鲁棒的训练过程实现了良好的性能(至少是非量化性能的 83%)。

为了更好的帮助大家了解这项研究,机器之心最新一期线上分享(即 3 月 18 日 19:00-20:00)邀请到了论文作者之一徐玉庄,为大家解读他们近期的工作 。


分享主题:大模型极限量化方法的探索与创新

嘉宾简介:徐玉庄,清华大学计算机系硕士研究生,研究兴趣包括大模型的高效计算、大模型与智能体、多语言处理等。

分享摘要:大模型以其强大的能力受到人们的广泛关注。虽然它在很多方面表现出色,但高昂的部署代价极大提升了它的使用门槛。模型量化是一类压缩方法,通过把大模型的参数转化为低位宽的表示,进而节省空间占用。本次报告回顾这一技术路线的主要发展过程,结合最近开展的低位宽量化研究 ONEBIT,介绍在超低位宽量化时的探索和经验,主要内容包括 (1) 模型量化的基本概念;(2) 模型量化的经典方法;(3) 超低位宽量化的挑战与思路。

文链接https://arxiv.org/abs/2402.11295


直播间:关注机器之心机动组视频号,立即预约直播。

交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。



机器之心 · 机动组


机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者关注。

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告。