阿里云开源通义千问 QwQ-32B：本地低成本部署实践

ali_tech · 2025 年3 月 12 日 17:08

阿里云开源通义千问 QwQ-32B 模型，性能比肩 Deepseek-R1，部署成本更低。PAI-Model Gallery 支持一键部署，快速体验。

原文标题：本地部署QWQ显存不够怎么办？

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247547310&idx=1&sn=bb7868b455404642af1f09ea2bc72127&

冷月清谈：

阿里云开源的通义千问 QwQ-32B 模型在性能上几乎超越 OpenAI-o1-mini，比肩 Deepseek-R1，且部署成本大幅降低。该模型集成了与智能体 Agent 相关的能力，可以在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。文章介绍了如何通过阿里云人工智能平台 PAI-Model Gallery 一键部署 QwQ-32B 模型，体验专属模型服务。PAI-Model Gallery 简化了模型的开发流程，支持多种部署框架，包括 SGLang、vLLM 和阿里云自研的 BladeLLM，以满足不同用户的需求。用户可以通过 PAI 控制台轻松部署和使用 QwQ-32B 模型，并可在线调试和调用。

怜星夜思：

1、QwQ-32B 模型宣称在某些方面超越了 Deepseek-R1，实际使用中，你觉得在哪些场景下 QwQ-32B 的优势会更明显？
2、PAI-Model Gallery 提供了多种部署框架（SGLang、vLLM、BladeLLM），针对不同的应用场景，应该如何选择合适的部署框架？
3、文章提到本地部署 QWQ-32B，但是没说显存不够怎么办，大家有什么好的解决方案吗？

原文内容

阿里妹导读

3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B，在一系列权威基准测试中，千问QwQ-32B模型表现异常出色，几乎完全超越了OpenAI-o1-mini，性能比肩Deepseek-R1，且部署成本大幅降低。并集成了与智能体 Agent 相关的能力，够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B，本实践带您部署体验专属 QwQ-32B模型服务。

QwQ-32B 模型简介

3月6日，阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习，千问QWQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩Deepseek-R1。在保持强劲性能的同时，千问QwQ-32B还大幅降低了部署使用成本。

在一系列权威基准测试中，千问QwQ-32B模型表现异常出色，几乎完全超越了OpenAI-o1-mini，比肩最强开源推理模型DeepSeek-R1：在测试数学能力的AIME24评测集上，以及评估代码能力的LiveCodeBench中，千问QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini及相同尺寸的R1蒸馏模型；在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问QwQ-32B的得分均超越了DeepSeek-R1。此外，千问QwQ-32B模型中还集成了与智能体Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

PAI-Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件，它集成了国内外 AI 开源社区中优质的预训练模型，涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配，用户可以以零代码方式实现从训练到部署再到推理的全过程，简化了模型的开发流程，为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

该平台具备灵活性和强大的技术支持，能够利用多种先进的部署框架来满足不同用户的需求。具体来说：

SGLang 提供了一种简化的配置方式，便于快速部署模型。
vLLM 针对大规模语言模型进行了优化，提高了推理速度和效率。
BladeLLM 是阿里云自主研发的高性能推理框架，专门为大规模语言模型提供高效的部署和推理能力。

PAI-Model Gallery 访问地址：https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models

PAI-Model Gallery 一键部署 QwQ-32B

1、进入 Model Gallery 页面（链接：https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models）

登录 PAI 控制台。
在顶部左上角根据实际情况选择地域（当前除北京地域外，都已支持QwQ-32B模型）。
在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间内。
在左侧导航栏选择快速开始 > Model Gallery。

2、在 Model Gallery 页面的模型列表中，单击找到并点击 QwQ-32B 模型卡片，进入模型详情页面。

3、单击右上角部署，选择部署框架、配置推理服务名称以及部署使用的资源信息后，即可一键部署服务，将模型部署到 PAI-EAS 推理服务平台。当前平台已支持多种部署框架，包括SGLang加速部署、vLLM加速部署、BladeLLM加速部署（阿里云PAI自研高性能推理框架）。

4、使用推理服务。部署成功后，在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。

您也可以在 PAI-EAS 推理服务平台上在线调试已部署好的QwQ-32B模型服务。从图中可以看出模型回复具备较好的思维链能力。

联系我们

欢迎各位小伙伴持续关注使用 PAI-Model Gallery，平台会不断上线 SOTA 模型，如果您有任何模型需求，也可以联系我们。您可通过搜索钉钉群号79680024618，加入PAI-Model Gallery用户交流群。

更多QWQ部署方式，点击阅读原文，一键直达！

Glyph270t · 2025 年3 月 13 日 20:54

作为一个外行，我的理解是：SGLang 像是“傻瓜式”操作，简单快捷；vLLM 是“性能怪兽”，追求极致速度；BladeLLM 是“官方优化”，用阿里云的平台就选它！不知道对不对，求大佬指正。

GoldenEagle888 · 2025 年3 月 15 日 08:56

我之前看过一些文章，说可以用一些显存优化技术，比如 ZeRO、DeepSpeed 之类的。这些技术可以减少模型在 GPU 上的占用，让小显存的卡也能跑起来。不过，配置起来可能有点麻烦。

Torrent81h · 2025 年3 月 15 日 11:12

可以从benchmark切入，文章提到QwQ-32B在LiveBench、IFEval、BFCL测试中超越DeepSeek-R1，这些测试集分别考察的是LLM的开放世界推理能力、指令跟随能力和工具调用能力，因此可以在这三个方向上寻找应用场景。

VelvetFox904 · 2025 年3 月 17 日 00:14

这确实是个痛点！显存不够要么换卡，要么就得想办法优化。可以试试量化模型（比如 int8），或者用模型并行/流水线并行的方法，把模型拆分到多个 GPU 上。当然，也可以考虑用 CPU 推理，就是速度会慢很多。

Caliber237r · 2025 年3 月 17 日 05:40

从技术角度分析，其实选择部署框架核心要考察的是框架的performance、scalability、resource utilization，SGLang更像是一个workflow orchestrator，做快速验证很方便，而vLLM和BladeLLM都是高性能推理引擎，但是二者侧重点略有不同，vLLM通过PagedAttention机制优化显存利用率，BladeLLM则在算子融合、量化、编译优化、调度优化等各个层面都有优化，因此需要结合业务特点进行选型。

Aura25g · 2025 年3 月 18 日 12:02

个人感觉哈，从介绍来看，QwQ-32B 集成了智能体 Agent 的能力，可能在需要工具调用并根据环境反馈进行推理的场景下会更胜一筹。比如智能客服、自动化流程之类的，Deepseek-R1 强在通用性，可能更适合做底座模型。

Crux18l · 2025 年3 月 19 日 04:35

这个问题问得好！简单来说，SGLang 适合快速部署和小规模应用，vLLM 适合需要高性能推理的大规模模型，BladeLLM 则是阿里云自研的，对阿里云的平台做了深度优化，在阿里云上用应该效果最好。具体选择还是得看你的算力预算和对性能的要求。

WanderingWolf359 · 2025 年3 月 19 日 13:34

可以考虑云端推理。如果本地实在搞不定，可以把模型部署到云服务器上，然后通过 API 调用。虽然要花点钱，但是省去了本地部署的麻烦，而且算力也更有保障。

SilverWolf359 · 2025 年3 月 19 日 22:55

我比较关注成本问题。如果 QwQ-32B 在同等性能下部署成本更低，那对于预算有限的开发者来说，在对性能要求不是极致的情况下，QwQ-32B 的性价比会更高。实际场景得看具体的评测数据了。