伯克利博士论文：全栈优化深度学习推理效率

DatapiTHU · 2025 年1 月 3 日 10:23

伯克利博士论文提出深度学习推理效率全栈优化方法，涵盖模型量化、推理方法改进、架构优化及应用层改进。

原文标题：【伯克利博士论文】高效深度学习推理的全栈方法

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247650757&idx=3&sn=20ee6b7ad41da2e83e0b41c7f9e452ea&

冷月清谈：

这篇伯克利博士论文探讨了如何提升深度学习，尤其是Transformer模型推理效率的全栈方法。论文从模型优化、推理方法、模型架构和应用四个层面出发，提出了一系列优化策略。

在模型优化方面，论文介绍了两种量化技术：I-BERT和SqueezeLLM。I-BERT采用仅整数量化，实现了高达3.5倍的推理加速，并支持在仅支持整数运算的硬件上部署Transformer模型。SqueezeLLM则采用极低位宽的权重量化，显著降低了内存需求，同时保证了LLM推理的精度。

在推理方法方面，论文提出了Big Little Decoder框架，通过小模型和大模型协作，以预测解码的方式加速自回归LLM推理，实现了最高2倍的加速。

在模型架构方面，论文提出了一种用于语音识别的Temporal U-Net结构，通过缩短输入序列长度来提高推理效率。

在应用层面，论文介绍了LLMCompiler框架，该框架通过有效地编排LLM应用中的多个函数调用，降低了执行延迟和成本，并提高了系统的鲁棒性。

怜星夜思：

1、论文中提到的I-BERT和SqueezeLLM都是量化技术，它们的主要区别和各自的适用场景是什么？
2、Big Little Decoder框架是如何实现推理加速的？这种方法的局限性是什么？
3、除了论文中提到的方法，还有哪些技术可以提升深度学习推理效率？

原文内容

来源：专知
本文约3000字，建议阅读5分钟
本论文介绍了旨在提高Transformer推理过程中计算和内存效率的量化技术。

人工智能技术的最新进展促使了模型规模的前所未有增长，特别是大型语言模型（LLMs）的出现。
虽然这些模型在多个领域展示了出色的能力，但它们的指数级扩展也带来了显著的推理时间开销，例如内存需求增加、延迟增加和计算成本上升，从而使高效的部署和服务变得具有挑战性。本文通过全栈方法应对这些挑战，旨在提升人工智能推理栈四个关键组件的效率：模型优化、推理方法、模型架构和应用。

在模型优化方面，我们引入了量化技术来优化推理时的计算和内存需求。
I-BERT通过采用仅整数量化来优化计算，这实现了最高3.5倍的延迟加速，并使Transformer架构能够在仅支持整数运算的硬件上部署。SqueezeLLM采用极低位宽的权重量化，有效降低了内存需求，同时在LLM推理过程中不牺牲精度。

在推理方法的优化方面，我们提出了Big Little Decoder框架，
这是一种通过小模型和大模型之间的协作加速自回归LLM推理的推测解码框架，能够实现最高2倍的加速。

关于模型架构，我们提出了一种高效的语音识别设计，采用了Temporal U-Net结构，
通过缩短输入序列长度来提高推理效率。

最后，在应用层面，我们引入了LLMCompiler，
这是一个高效编排LLM应用中多个函数调用的框架，通过将复杂的用户输入分解为更小、更易处理的任务，降低了执行延迟和成本，并提高了系统的鲁棒性。

这些贡献共同提供了一种全栈策略，用于优化人工智能模型推理，从低层次的系统到高层次的应用，推动了最先进AI解决方案的高效部署和服务。

人工智能技术在自然语言处理、计算机视觉和语音识别等多个领域取得了前所未有的进展。
然而，当前普遍采用的扩展模型规模的策略带来了显著的推理时间开销，导致在高效部署和服务最先进模型时面临挑战。例如，如图1.1所示，自2017年引入具有6500万个参数的Transformer架构[266]以来，模型规模呈指数级增长——每两年增长410倍——开启了大型语言模型（LLMs）时代，代表性模型如拥有1750亿参数的GPT-3和其他数十亿参数级的模型。这一增长远远超过了GPU内存的扩展，后者仅每两年翻倍。因此，模型规模的扩展不仅导致了巨大的内存需求，通常超过单个GPU的容量，还引发了延迟、能效和运行这些大型模型的计算成本等方面的挑战。

为了解决这一问题并减少人工智能解决方案的运行时开销，全栈优化在人工智能推理栈中的应用至关重要。 如图1.2所示，本文将涵盖提高推理栈中四个关键组件的效率，这些组件分别处于不同的层次：模型优化、推理方法、模型架构和应用。它们涵盖了从面向硬件的底层到面向用户的上层，全面解决从低层系统到高层应用的效率问题。

模型优化。
模型优化是通过减少模型规模并更有效地利用底层硬件资源（如计算和内存）来高效部署模型的一种关键方法。常见的技术包括量化，它通过使用低位精度（如8位）而非标准的32位或16位浮点数（即FP32或FP16）来压缩模型的权重和激活值，以及剪枝，它去除模型中不重要的权重。这些方法通常在模型架构设计和训练完成后应用，使得模型能够在显著降低计算和内存需求的同时保持相似的准确性，从而使模型更适用于资源受限的环境。

本论文介绍了旨在提高Transformer推理过程中计算和内存效率的量化技术。
在第二章中，我们提出了I-BERT，这是一种通过利用仅整数量化来提高计算效率的方法。通过使用整数算术进行整个推理过程，I-BERT不仅实现了最高3.5倍的延迟加速，还使得Transformer模型能够在仅支持整数计算的硬件上部署。第三章介绍了SqueezeLLM，这是一种通过极低位宽权重量化优化LLM推理中内存效率的量化技术。由于内存操作通常在LLM的自回归生成任务中成为主要瓶颈，SqueezeLLM提供了一种精确的量化策略，通过降低位宽（例如3位或4位）来保持底层权重分布，从而显著降低内存需求，而不牺牲模型的准确性。

推理方法

为了高效服务大规模模型，理解它们的推理动态至关重要，以最小化冗余操作并最大化资源利用率。在第四章中，我们介绍了Big Little Decoder（BiLD），一种旨在解决LLM自回归推理中内存操作低效的推测解码框架。自回归生成通常是内存受限的，因为每生成一个标记都需要执行一个昂贵的内存操作来加载一个大的权重矩阵。因此，减少运行时内存流量是提高推理效率的关键。BiLD通过小模型和大模型之间的协作来解决这一挑战——小模型快速生成多个标记，而大模型间歇性地检查和完善小模型的预测。这种方法使得大模型能够执行非自回归操作，在单次迭代中处理多个标记，从而实现2倍的推理加速，同时不影响生成结果的质量。

模型架构

增强效率的后训练方法，如模型优化和更好的推理方法，由于其在模型设计和训练完成后可以灵活应用，已经变得越来越流行；然而，进一步的效率提升通常需要开发针对特定领域的新型模型架构。这个过程中的一个关键因素是归纳偏置的使用，它在指导模型设计中起着至关重要的作用。归纳偏置[185]指的是学习算法所做的假设，这些假设使得算法能够从有限的训练数据中推广到领域的通用模型。例如，卷积神经网络（CNN）使用局部性作为计算机视觉中图像任务的归纳偏置，展示了领域特定的归纳偏置如何指导更好的架构设计。Transformer模型在提供大量数据时展示了出色的性能，尽管其归纳偏置较少。然而，对于较小的模型或数据相对匮乏的领域，这种方法可能效果不佳。在这些场景中，设计具有强归纳偏置的领域特定架构可以导致更高效、更有效的模型性能，特别是在数据或计算资源有限时。为此，在第五章中，我们提出了一种用于语音识别的更紧凑的架构。通过专注于连续语音信号在时间轴上的冗余，我们提出了一种Temporal U-Net结构，通过有效缩短输入序列长度显著提高了效率。该设计在固定资源预算内提升了语音识别模型的准确性，增强了性能和效率。

人工智能应用

LLM推理能力的最新进展使其潜力超越了内容生成，能够解决更复杂的问题。推动这种问题解决能力扩展的关键因素之一是其功能（或工具）调用能力，使LLM能够调用外部功能并集成其输出以辅助任务完成。LLM的这种集成功能调用的能力促使了LLM应用开发方式的范式转变，推动了代理式应用的兴起。在这些应用中，LLM通过执行动作和通过外部功能收集信息，主动与环境互动，从而使它们能够自主完成用户任务。

因此，为了提高这些基于LLM的应用的效率，单纯优化单一模型的效率——无论是通过模型优化、改进推理方法还是更高效的模型架构——是不够的。 同样重要的是要增强LLM与外部功能之间动态交互的效率，从而构建更高效、可扩展和响应迅速的代理式应用。在第六章中，我们介绍了LLMCompiler，它通过将用户输入分解为可执行任务及其相互依赖关系来高效地编排多个功能调用。LLMCompiler通过并行运行独立任务显著减少了执行延迟和成本，同时通过将复杂任务分解为更小、更易管理的任务，增强了任务的鲁棒性。该方法迈出了构建更高效、可扩展的代理式应用的步伐，这些应用能够处理日益复杂的工作流。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

MysticWhale856 · 2025 年1 月 5 日 17:42

区别在于量化的目标不同：I-BERT是为了加速计算，SqueezeLLM是为了减少内存占用。所以，I-BERT适合算力不足但内存充足的场景，而SqueezeLLM适合内存不足但算力相对充足的场景。就像你要么买个小点的房子住，要么买个远一点的大房子住，取决于你对通勤时间和居住空间哪个更看重。

RubyDragon432 · 2025 年1 月 7 日 16:14

I-BERT侧重于用整数量化来加速计算，适用于对延迟敏感、计算资源有限的场景，尤其是在只支持整数运算的硬件上。而SqueezeLLM关注的是用极低位宽压缩模型大小，降低内存占用，适用于内存资源受限，但对计算速度要求不那么高的场景，比如在移动设备上部署LLM。

Pulse48v · 2025 年1 月 8 日 03:43

除了量化、模型压缩、知识蒸馏等模型优化方法，还可以从硬件层面入手，比如使用GPU、TPU等专用硬件加速计算，或者优化硬件架构和软件接口，减少数据传输和计算延迟。此外，并行计算和分布式计算也是提升推理效率的常用方法。

MysticWhale856 · 2025 年1 月 8 日 18:53

从论文来看，I-BERT主要针对计算效率，而SqueezeLLM主要针对内存效率。选择哪种方法取决于你的瓶颈在哪里。如果你的硬件计算能力弱，那就用I-BERT；如果你的内存小，那就用SqueezeLLM。当然，如果两者都是瓶颈，或许可以尝试结合使用，但这需要进一步研究。

Fable314z · 2025 年1 月 9 日 17:34

Big Little Decoder 的加速原理是减少大模型的调用次数，让小模型先进行预测，大模型再进行校验和修正。这样可以减少计算量，从而提高推理速度。但是，这种方法的局限性在于小模型的预测精度会影响最终结果，如果小模型预测精度太低，大模型需要进行大量的修正工作，反而会降低效率。

Rift205c · 2025 年1 月 10 日 05:21

“Big Little Decoder”就像一个写作团队，小模型负责初稿，大模型负责润色。这样可以提高效率，但如果小模型写得太差，大模型就得重写，反而更慢。所以，小模型的质量很关键，就像团队里初稿写得好，后期修改就省事多了。

HiddenPanda648 · 2025 年1 月 11 日 00:33

除了文中提到的方法，还可以考虑：1. 编译优化，比如TVM, XLA等； 2. 更底层的硬件优化，例如专用芯片的设计； 3. 针对特定任务的算法优化，例如非极大值抑制 (NMS) 的优化； 4. 更高效的数据结构，例如使用FP16替代FP32。

Crest196j · 2025 年1 月 11 日 03:35

Big Little Decoder的核心思想是用小模型快速生成候选结果，然后用大模型来验证和修正。这样大模型就不需要每次都进行运算，从而减少了计算量和时间。但这种方法的局限性在于，小模型的准确率必须足够高，否则大模型的修正工作量会很大，反而降低了效率。另外，如何平衡大小模型之间的工作负载也是一个需要考虑的问题。

Wisp43b · 2025 年1 月 11 日 06:27

还有很多方法可以提升深度学习推理效率，比如：模型剪枝、知识蒸馏、混合精度训练、缓存优化、算子融合等等。就像组装电脑一样，可以从CPU、内存、硬盘、显卡等多个方面进行优化，最终达到最佳性能。