AI 浪潮下,终端硬件如何应对大模型挑战?

大型语言模型在终端设备上的部署面临硬件限制。如何平衡算力、功耗和精度,成为终端 AI 的关键挑战。

原文标题:AI已精,硬件何愚?

原文作者:机器之心

冷月清谈:

大型语言模型 (LLM) 的兴起对终端设备的智能化提出了更高的要求。虽然云端部署的 LLM 能力强大,但延迟、隐私和联网限制使其难以满足实时交互的需求。将 LLM 直接部署到终端设备成为一种趋势,但也面临着巨大的挑战。

终端设备的计算能力、内存容量和功耗限制与 LLM 的高算力需求存在矛盾。即使是压缩后的模型,在终端运行仍然面临困难。此外,终端场景的特殊性也需要定制化的模型,而非简单的云端模型蒸馏。定制模型可以更好地适配硬件限制、领域知识和多模态协同需求。

目前,一些研究方向正在推动终端 LLM 的发展,例如模型压缩、量化、知识蒸馏等技术。一些机构也发布了针对终端设备的小型模型,但要实现真正的终端智能,仍需克服硬件和软件方面的挑战。

怜星夜思:

1、除了文中提到的计算能力、内存和功耗,还有哪些因素限制了大型语言模型在终端设备上的部署?
2、文章提到了定制化的终端模型,相较于通用大模型蒸馏,定制模型的开发流程有哪些不同?
3、未来,终端 LLM 的发展趋势是什么?

原文内容

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

近期,华为、联想、星纪魅族等头部厂商陆续宣布了其系统级智能体接入 DeepSeek-R1。尽管 LLM 逐渐朝着人类思考的方式靠近,但接入 AI 大模型的智能终端设备实际体验并不佳,离真正的智能还有很远的距离。

传统的 LLMs 主要部署在云服务器上,但存在着延迟、数据隐私安全和联网等等局限性。而随着智能手机、汽车和可穿戴设备等设备的智能化趋势,能在边缘设备上直接部署 LLMs 成为关键需求。

目录

01. DeepSeek 都这么强了,为什么端侧的智能硬件还是不太聪明的样子?

DeepSeek 都这么强了,为什么智能设备还是不太聪明的样子?在端侧设备上直接部署运行 LLMs 有哪些难题?为什么终端厂商又非要把 LLMs 放在端侧运行?

02. 端侧小模型正在变强吗?能在端侧运行的小模型的「知识密度」也有 Scaling law?

端侧小模型正在变强吗?能在端侧运行的小模型的「知识密度」也有 Scaling law?

03. 近期有哪些值得关注的工作在推进端侧模型的发展?有哪些技术正在让端侧模型变得更强?

有哪些值得关注的让端侧模型变得更强的技术?...

01  DeepSeek 都这么强了,为什么端侧的智能硬件还是不太聪明的样子?
1、近期,华为、联想、星纪魅族等头部厂商陆续宣布了其系统级智能体接入 DeepSeek-R1。尽管 LLM 更加朝着人类思考的方式靠近,但接入 AI 大模型的智能终端设备实际体验并不佳,离真正的智能还有很远的距离。
2、传统的 LLMs 主要部署在云服务器上,但存在着延迟、数据隐私安全和联网等等局限性。而随着智能手机、汽车和可穿戴设备等设备的智能化趋势,能在边缘设备上直接部署 LLMs 成为关键需求。
① 据 Market.us 数据显示,2022 年至 2032 年,按最终用户划分的全球设备端边缘人工智能市场规模正在以 25.9%的复合年增长率增长。
② 以延迟为例,如 LLMs 能够直接在终端设备上运行推理,而不是将数据发送到云服务器,将有效地减少生成时间,更满足于需要实时响应的应用。
② 同样,在终端设备上直接部署运行 LLMs,可以在离线的环境中运行,减少了对网络的依赖。
3、但在有着不同限制条件的边缘设备上,整合运行计算密集型的 LLMs 面临非常大的难题,诸如计算能力、内存容量、算力等的限制,难以满足大模型的微调和推理需求。其中,端侧算力不足是难以在端侧「跑」大模型的最为核心的难题。
① 端侧设备的硬件能力的物理限制与大模型计算需求的指数级增长存在根本性矛盾。以 70 亿参数模型为例,单次推理需约 25GB 显存和万亿次浮点运算,而主流端侧设备(如手机 NPU)的算力通常低于 100TOPS(如骁龙 8 Gen3 的 45TOPS)、内存不足 12GB,无法实现实时计算。
② 同时,由于大模型的计算密集型特性会导致功耗激增,端侧设备因电池和散热限制而无法持续高负载运行。
难以实现平衡算力、能耗与精度的「不可能三角」,是端侧设备直接部署大模型面临的本质性难题。
③ 此外,以 DeepSeek 为例,尽管 DeepSeek 带来了训练和推理成本指数级下降,边端侧模型可用性明显提高。DeepSeek 通过模型压缩、量化等技术降低了对端侧算力的需求,但边端算力资源受限仍是主要挑战。
4、因此,端侧模型变得更为重要,成为研究的爆发趋势方向。端侧模型是指部署在智能手机、PC、可穿戴设备、自动驾驶汽车、具身机器人等终端设备上的预训练模型。因为终端设备的计算资源有限,端侧模型的特点是「轻量化」,需要特别设计来减少模型大小和模型架构。
5、现有的端侧模型通常由更高一级的基础大模型蒸馏而来。DeepSeek 在其技术报告中也提到,对于参数规模在 7B 以下的小型模型,可以采用知识蒸馏技术,利用一个性能优异的大型教师模型来生成高质量的思维链数据,这种方法能够显著提升小模型的推理能力,且在效果和效率上优于直接强化学习。
6、但在 PC、机器人、自动驾驶汽车等智能终端的实际场景中,往往需要专门去做定制的端侧模型,而不是使用基础大模型直接进行蒸馏。原因在于:
① 一是基于硬件的约束。在终端场景,通常要求毫秒级实时响应(如自动驾驶 10ms 决策)、严控算力(如 NPU 的 40TOPS 适配)、存储压缩(如机器人 32GB 内存限制)及能耗优化(如特斯拉模型降耗 40%)。相比于直接蒸馏的大模型,定制的端侧模型能够需通过剪枝、量化等定制技术实现极致效率;
② 二是场景的特异性。需针对性强化领域知识(如医疗机器人融合解剖图谱)、多模态协同(如激光雷达与视觉融合)和长尾场景覆盖(如暴雨路况优化),而通用大模型蒸馏难以适配垂直需求;
③ 三是蒸馏的局限性:蒸馏存在知识迁移损耗(如隐私数据无法云端蒸馏)、架构冗余(如多头注意力机制)和无法动态迭代(如端侧联邦学习实时更新)等局限。


02  近期有哪些值得关注的工作在推进端侧模型的发展?有哪些技术正在让端侧模型变得更强?
自 2023 年开始,关于边缘设备上的大型语言模型的研究开始真正兴起。诸如 Meta 的 LLaMA 系列、微软的 Phi 系列、谷歌的 Gemma 系列、Nexa AI 的 Octopus 系列模型等。同时,近期也有不少端侧模型、小模型的相关研究工作进展 ......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 


更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

除了带宽,安全性也是一个关键问题。终端设备更容易受到攻击,如果大模型部署在终端,如何保护模型的安全性,防止被恶意篡改或盗用,是一个需要认真考虑的问题。

我猜想未来终端 LLM 会更加注重效率和轻量化,通过更先进的压缩和优化技术,在更小的模型尺寸下实现更高的性能。这样才能更好地适配终端设备的资源限制。

我觉得数据收集和标注也是一个重要的区别。定制模型需要针对特定场景的数据进行训练,这需要收集大量的特定数据,并进行专业的标注。通用大模型蒸馏则可以直接利用已有的通用数据集。

我觉得定制模型更强调与硬件平台的协同优化。需要根据硬件平台的特点,对模型进行调整和优化,以最大限度地发挥硬件性能。而通用模型蒸馏则更关注模型本身的性能,对硬件平台的适配性相对较差。

我觉得未来终端 LLM 会与硬件更加紧密地结合,出现更多专门为 LLM 设计的硬件芯片,从而提升 LLM 在终端设备上的运行效率。

定制模型的开发流程肯定更加复杂。首先需要深入了解具体的应用场景和硬件平台,然后在此基础上设计和训练模型,并进行优化和测试。这需要更多的时间和资源投入。

我觉得带宽也是一个重要的限制因素。大模型需要传输大量数据,而终端设备的网络连接带宽有限,尤其是在移动网络环境下,这会严重影响模型的响应速度和用户体验。

我觉得模型的更新也是一个问题。大模型需要不断更新迭代,如果部署在终端,如何高效地进行模型更新,也是一个挑战。毕竟,终端设备的存储空间和计算能力有限,不能像服务器那样方便地进行模型更新。

我比较看好多模态 LLM 在终端的发展。未来终端 LLM 将能够处理多种类型的输入数据,例如图像、语音、文本等,从而提供更丰富的交互体验。