阿里云开源通义千问 QwQ-32B:本地低成本部署实践

阿里云开源通义千问 QwQ-32B 模型,性能比肩 Deepseek-R1,部署成本更低。PAI-Model Gallery 支持一键部署,快速体验。

原文标题:本地部署QWQ显存不够怎么办?

原文作者:阿里云开发者

冷月清谈:

阿里云开源的通义千问 QwQ-32B 模型在性能上几乎超越 OpenAI-o1-mini,比肩 Deepseek-R1,且部署成本大幅降低。该模型集成了与智能体 Agent 相关的能力,可以在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。文章介绍了如何通过阿里云人工智能平台 PAI-Model Gallery 一键部署 QwQ-32B 模型,体验专属模型服务。PAI-Model Gallery 简化了模型的开发流程,支持多种部署框架,包括 SGLang、vLLM 和阿里云自研的 BladeLLM,以满足不同用户的需求。用户可以通过 PAI 控制台轻松部署和使用 QwQ-32B 模型,并可在线调试和调用。

怜星夜思:

1、QwQ-32B 模型宣称在某些方面超越了 Deepseek-R1,实际使用中,你觉得在哪些场景下 QwQ-32B 的优势会更明显?
2、PAI-Model Gallery 提供了多种部署框架(SGLang、vLLM、BladeLLM),针对不同的应用场景,应该如何选择合适的部署框架?
3、文章提到本地部署 QWQ-32B,但是没说显存不够怎么办,大家有什么好的解决方案吗?

原文内容

阿里妹导读


3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。

QwQ-32B 模型简介

3月6日,阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习,千问QWQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩Deepseek-R1。在保持强劲性能的同时,千问QwQ-32B还大幅降低了部署使用成本。

在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。此外,千问QwQ-32B模型中还集成了与智能体Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

PAI-Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配,用户可以以零代码方式实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

该平台具备灵活性和强大的技术支持,能够利用多种先进的部署框架来满足不同用户的需求。具体来说:

  • SGLang 提供了一种简化的配置方式,便于快速部署模型。

  • vLLM 针对大规模语言模型进行了优化,提高了推理速度和效率。

  • BladeLLM 是阿里云自主研发的高性能推理框架,专门为大规模语言模型提供高效的部署和推理能力。

PAI-Model Gallery 访问地址:https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models

PAI-Model Gallery 一键部署 QwQ-32B

1、进入 Model Gallery 页面(链接:https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models

  • 登录 PAI 控制台。
  • 在顶部左上角根据实际情况选择地域(当前除北京地域外,都已支持QwQ-32B模型)。
  • 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
  • 在左侧导航栏选择快速开始 > Model Gallery。

2、在 Model Gallery 页面的模型列表中,单击找到并点击 QwQ-32B 模型卡片,进入模型详情页面。

3、单击右上角部署,选择部署框架、配置推理服务名称以及部署使用的资源信息后,即可一键部署服务,将模型部署到 PAI-EAS 推理服务平台。当前平台已支持多种部署框架,包括SGLang加速部署、vLLM加速部署、BladeLLM加速部署(阿里云PAI自研高性能推理框架)。

4、使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

您也可以在 PAI-EAS 推理服务平台上在线调试已部署好的QwQ-32B模型服务。从图中可以看出模型回复具备较好的思维链能力。

联系我们

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断上线 SOTA 模型,如果您有任何模型需求,也可以联系我们。您可通过搜索钉钉群号79680024618,加入PAI-Model Gallery用户交流群。

更多QWQ部署方式,点击阅读原文,一键直达!

作为一个外行,我的理解是:SGLang 像是“傻瓜式”操作,简单快捷;vLLM 是“性能怪兽”,追求极致速度;BladeLLM 是“官方优化”,用阿里云的平台就选它!不知道对不对,求大佬指正。

我之前看过一些文章,说可以用一些显存优化技术,比如 ZeRO、DeepSpeed 之类的。这些技术可以减少模型在 GPU 上的占用,让小显存的卡也能跑起来。不过,配置起来可能有点麻烦。

可以从benchmark切入,文章提到QwQ-32B在LiveBench、IFEval、BFCL测试中超越DeepSeek-R1,这些测试集分别考察的是LLM的开放世界推理能力、指令跟随能力和工具调用能力,因此可以在这三个方向上寻找应用场景。

这确实是个痛点!显存不够要么换卡,要么就得想办法优化。可以试试量化模型(比如 int8),或者用模型并行/流水线并行的方法,把模型拆分到多个 GPU 上。当然,也可以考虑用 CPU 推理,就是速度会慢很多。

从技术角度分析,其实选择部署框架核心要考察的是框架的performance、scalability、resource utilization,SGLang更像是一个workflow orchestrator,做快速验证很方便,而vLLM和BladeLLM都是高性能推理引擎,但是二者侧重点略有不同,vLLM通过PagedAttention机制优化显存利用率,BladeLLM则在算子融合、量化、编译优化、调度优化等各个层面都有优化,因此需要结合业务特点进行选型。

个人感觉哈,从介绍来看,QwQ-32B 集成了智能体 Agent 的能力,可能在需要工具调用并根据环境反馈进行推理的场景下会更胜一筹。比如智能客服、自动化流程之类的,Deepseek-R1 强在通用性,可能更适合做底座模型。

这个问题问得好!简单来说,SGLang 适合快速部署和小规模应用,vLLM 适合需要高性能推理的大规模模型,BladeLLM 则是阿里云自研的,对阿里云的平台做了深度优化,在阿里云上用应该效果最好。具体选择还是得看你的算力预算和对性能的要求。

可以考虑云端推理。如果本地实在搞不定,可以把模型部署到云服务器上,然后通过 API 调用。虽然要花点钱,但是省去了本地部署的麻烦,而且算力也更有保障。

我比较关注成本问题。如果 QwQ-32B 在同等性能下部署成本更低,那对于预算有限的开发者来说,在对性能要求不是极致的情况下,QwQ-32B 的性价比会更高。实际场景得看具体的评测数据了。