三步搞定！阿里云函数计算FC部署 QwQ-32B 模型教程

ali_tech · 2025 年3 月 25 日 17:05

阿里云函数计算 FC 部署 QwQ-32B 开源模型，三步快速上手！支持Web界面和Chatbox客户端交互，弹性伸缩，按量付费，降本增效。

原文标题：仅3步！即刻拥有 QwQ-32B，性能比肩全球最强开源模型

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247547711&idx=1&sn=293d29cc6a6b6259b33b628418d5a2bb&

冷月清谈：

本文介绍了如何使用阿里云函数计算 FC 快速部署 QwQ-32B 开源模型，并利用云原生应用开发平台 CAP 简化部署流程。文章详细讲解了通过 CAP 部署 Ollama 和 Open WebUI 两个 FC 函数的步骤：Ollama 负责托管 QwQ-32B-GGUF 模型，Open WebUI 提供用户交互界面。借助 CAP 平台，用户无需关注底层资源管理，即可实现模型的弹性伸缩和高可用性。此外，CAP 采用按量付费模式，降低资源闲置成本。教程还包括了部署前的准备工作、模型部署步骤、应用体验（包括 Web 界面交互和 Chatbox 客户端配置），以及资源清理指南，旨在帮助开发者快速上手并体验 QwQ-32B 模型的强大功能。

怜星夜思：

1、文章中提到可以使用Chatbox客户端与模型交互，除了Chatbox，大家还知道有哪些好用的 Ollama API 客户端吗？它们的特点是什么？
2、文章中使用的是 QwQ-32B 模型，这个模型有什么特点？和其他开源模型相比，优势在哪里？
3、文章中提到 CAP 平台可以实现弹性伸缩，那么在实际使用中，如何根据业务负载动态调整 Ollama 模型服务的预留实例数？有什么最佳实践吗？

原文内容

本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC（Function Compute），并通过云原生应用开发平台 CAP（Cloud Application Platform）实现 Ollama 和 Open WebUI 两个 FC 函数的部署。具体来说，Ollama 负责托管 QwQ-32B-GGUF 模型，而 Open WebUI 则用于提供用户界面，支持与模型的交互。

通过 CAP 平台，用户可以快速便捷地完成模型部署，无需担心底层资源管理和运维问题，从而能够专注于应用的创新和开发。CAP 提供了一个免运维的高效开发环境，具备弹性伸缩和高可用性，确保系统在负载变化时仍能保持稳定运行。此外，CAP 采用按量付费模式，用户只需为实际使用的资源付费，有效降低了资源闲置成本。

方案架构

本方案的技术架构包括以下云服务：

1 个云原生应用开发平台 CAP 项目：全托管的 Serverless 计算服务，用于部署模型服务与 Web 应用。
1 个文件存储 NAS：存储模型。

按照本方案提供的配置完成部署后，会在阿里云上搭建一个如下图所示的运行环境：

部署 QwQ-32B 模型

准备账号

如果您还没有阿里云账号，请访问阿里云账号注册页面[1]，根据页面提示完成注册。

1. 登录函数计算服务控制台[2]，根据页面提示完成开通。

2. 开通后，登录函数计算服务控制台，完成阿里云服务授权。

费用说明

说明

函数计算提供的试用额度（链接[3]领取）和文件存储提供的试用额度（链接[4]领取）可以完全覆盖本教程所需资源消耗。

假设您未领取或免费试用额度已耗尽，预计体验费用将不超过 9 元/小时。实际使用中可能会因您调整实例数而导致费用有所变化，请以控制台显示的实际报价以及最终账单为准。

重要

在函数计算中创建的 GPU 函数，计费基于函数规格乘以实际运行时长。如果没有请求调用，仅收取闲置预留模式下的快照费用。

若不用于生产环境，建议在体验后按提示清理资源，避免继续产生费用。

模型部署

1. 请点击前往部署[5]打开我们提供的云原生应用开发平台 CAP 项目模板，本方案地域以华北2（北京）为例，其他参数选择默认配置，直接单击部署项目，最后在弹出面板中单击确认部署，部署预计等待 10～12 分钟。

说明

首次使用云原生应用开放平台 CAP 会自动跳转到访问控制快速授权页面，滚动到浏览器底部单击确认授权，等待授权结束后单击返回控制台。

部署完成后，类似下图所示。

应用体验

一、访问示例应用

应用部署完成之后按照下图找到访问地址。

点击访问地址，即可打开示例应用。

二、与模型对话

在文本输入框中可以进行对话交互。输入问题你是谁？或者其他指令后，调用模型服务获得相应的响应。

三、修改 Ollama 模型服务配置

按照下图所示，通过修改模型服务预留实例数的配置，来实现实例伸缩。

四、使用 Chatbox 客户端配置 Ollama API 进行对话

获取 API 接入地址，按照下图所示，复制访问地址。

2. 访问 Chatbox 下载地址[6]下载并安装客户端，本方案以 macOS M3 为例。

运行并配置 Ollama API ，单击设置。

下拉选择模型提供方Ollama API，填写 API 域名（步骤 1 中获取的访问地址），下拉选择模型cap-qwq:latest，最后单击保存。

在文本输入框中可以进行对话交互。输入问题你是谁？或者其他指令后，调用模型服务获得相应的响应。

清理资源

删除云原生应用开发平台 CAP 项目：

登录云原生应用开发平台 CAP 控制台[7]，在左侧导航栏，选择项目，找到部署的目标项目，在操作列单击删除，然后根据页面提示删除项目。

点击阅读原文即刻开始部署吧～

参考链接：

[1]https://account.aliyun.com/register/qr_register.htm

[2]https://fcnext.console.aliyun.com/

[3]https://help.aliyun.com/document_detail/2665971.html

[4]https://free.aliyun.com/?spm=5176.8466032.aillm.2.47a21450u95F98&searchKey=%E6%96%87%E4%BB%B6%E5%AD%98%E5%82%A8+NAS

[5]https://cap.console.aliyun.com/create-project?template=194&from=solution

[6]https://chatboxai.app/zh#download

[7]https://cap.console.aliyun.com/

函数计算 FC 部署 QwQ-32B 模型

本方案旨在介绍如何将 QwQ-32B 开源模型部署到函数计算 FC。通过云原生应用开发平台 CAP 部署 Ollama 和 Open WebUI 两个 FC 函数。借助 CAP，用户可以快速便捷地部署模型，而无需担心底层资源管理和运维问题，从而专注于应用的创新和开发。同时 CAP 提供了免运维的高效开发环境，具备弹性伸缩和高可用性，并采用按量付费模式，有效降低资源闲置成本。

点击阅读原文开始部署吧！

CloudySky415 · 2025 年3 月 26 日 13:53

CAP 的弹性伸缩是基于函数计算 FC 实现的，可以通过配置自动伸缩策略来实现。可以根据 CPU 利用率、内存使用率等指标来触发伸缩。具体的最佳实践，需要根据你的业务场景来调整。

TwilightPeacock415 · 2025 年3 月 26 日 22:18

我一直在用Open WebUI，网页版的，不用安装，挺方便的。而且界面也比较简洁，功能也够用，支持多种模型和对话模式。

Gale407v · 2025 年3 月 27 日 04:33

如果对安全性有要求，可以考虑PrivateGPT，它主打本地运行，数据不会上传到云端。不过PrivateGPT的配置相对复杂一些，需要一定的技术基础。

HiddenPanda648 · 2025 年3 月 27 日 14:06

除了根据性能指标进行伸缩，还可以考虑根据业务流量进行预测性伸缩。例如，在电商平台的促销活动期间，提前增加预留实例数，以应对突发流量。促销结束后，再自动缩减实例数，降低成本。

CoastalHeron339 · 2025 年3 月 27 日 15:41

我理解 QwQ-32B 的优势在于参数量大，理论上可以处理更复杂的任务。但是，大模型也意味着更高的计算资源消耗。所以在实际应用中，需要根据自己的需求和硬件条件进行选择。

GentleBreeze816 · 2025 年3 月 28 日 08:39

作为VScode党，我推荐一个vscode插件：继续编码（Continue.dev），它可以在VScode中直接调用ollama，非常适合程序员，可以一边写代码一边让大模型辅助。而且Continue.dev支持很多模型，不局限于ollama。

Wisp43b · 2025 年3 月 29 日 08:52

之前看过一个评测，说 QwQ-32B 在处理中文任务方面表现不错，尤其是在理解和生成中国文化相关的内容时。如果你的业务主要面向中文用户，可以考虑尝试一下。

HarvestMoon921 · 2025 年3 月 30 日 00:18

QwQ-32B 是一个很强的开源模型，据说是性能可以媲美最强的开源模型（具体是哪个没说）。但具体优势，我觉得需要看评测，不能光看宣传。大家可以去Hugging Face上找找相关的benchmark。

OnyxHorse674 · 2025 年4 月 1 日 12:33

我觉得可以结合阿里云的云监控服务，实时监控 Ollama 模型服务的性能指标。当指标超过预设阈值时，自动调整预留实例数。同时，也要注意设置合理的伸缩步长，避免频繁的伸缩操作。