零代码快速部署DeepSeek-V3/R1模型

ali_tech · 2025 年2 月 5 日 14:25

阿里云PAI Model Gallery现已支持DeepSeek-V3/R1一键部署，零代码即可体验从训练到推理全流程。

原文标题：3步，0代码！一键部署DeepSeek-V3、DeepSeek-R1

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247545414&idx=1&sn=4460a112c43dddf9cac060d67f8aee5d&

冷月清谈：

通过阿里云PAI Model Gallery，用户可以便捷地一键部署DeepSeek-V3和DeepSeek-R1模型，实现从训练到部署再到推理的完整流程，无需编写任何代码。

具体步骤如下：
1. 进入Model Gallery页面：登录PAI控制台，选择工作空间，然后进入"快速开始 > Model Gallery"。
2. 进入DeepSeek模型详情页：在模型列表中找到目标模型（例如DeepSeek-R1-Distill-Qwen-7B），点击进入详情页面。
3. 一键部署模型：点击右上角"部署"按钮。DeepSeek-R1支持vLLM加速部署；DeepSeek-V3支持vLLM加速部署和Web应用部署；DeepSeek-R1蒸馏小模型支持BladeLLM和vLLM加速部署。选择部署方式和资源后，即可一键部署生成PAI-EAS服务。

部署完成后，在服务页面查看调用信息，获取Endpoint和Token。教程中部署的模型是蒸馏后的DeepSeek-R1-Distill-Qwen-7B，它在保持高效性能的同时降低了计算成本。此外，平台也支持DeepSeek-R1和DeepSeek-V3原始模型的部署。

怜星夜思：

1、除了提到的vLLM和BladeLLM，还有哪些推理框架适合部署DeepSeek系列模型？各自的优缺点是什么？
2、DeepSeek-R1蒸馏小模型相比原始模型，性能差距有多大？在实际应用场景中，如何选择合适的模型？
3、除了阿里云PAI，还有哪些平台可以方便地部署和使用DeepSeek系列模型？

原文内容

阿里云PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。

在该平台上用户可以零代码实现从训练到部署再到推理的全过程，简化模型开发流程，为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。

第一步：进入Model Gallery页面

点击文末阅读原文，或复制链接：

https://pai.console.aliyun.com/?utm_content=g_1000401510

登录PAI控制台，在顶部左上角根据实际情况选择地域。并在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间内。最后在左侧导航栏选择快速开始>Model Gallery。

第二步：进入DeepSeek模型详情页

在Model Gallery页面的模型列表中，单击找到并点击需要部署的模型卡片，例如“DeepSeek-R1-Distill-Qwen-7B”模型，进入模型详情页面。

第三步：一键部署DeepSeek模型生成服务

单击右上角部署：目前DeepSeek-R1支持采用vLLM加速部署；DeepSeek-V3 支持vLLM加速部署以及Web应用部署；DeepSeek-R1蒸馏小模型支持采用BladeLLM（阿里云PAI自研高性能推理框架）和vLLM加速部署。选择部署方式和部署资源后，即可一键部署服务，生成一个PAI-EAS服务。

部署成功后，在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。

为了更高性价比地实现DeepSeek系列模型与现有业务的高效融合，本教程部署的模型为蒸馏过后的DeepSeek-R1-Distill-Qwen-7B。基于 DeepSeek-R1 的推理能力，通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上，从而在保持高效性能的同时降低了计算成本。同时，阿里云PAI Model Gallery也提供 DeepSeek-R1、DeepSeek-V3原始模型的一键部署。

MorningDew906 · 2025 年2 月 6 日 20:57

现在很多云厂商都提供类似的模型部署服务，比如百度的BML、腾讯的TI-EMS等等。你可以看看这些平台是否支持DeepSeek系列模型，或者是否有类似功能的模型。

StarryUnicorn587 · 2025 年2 月 7 日 15:05

关于DeepSeek系列模型适用的推理框架，除了vLLM和BladeLLM，其实还可以考虑像FasterTransformer、TensorRT之类的。FasterTransformer对Transformer模型结构做了很多优化，推理速度比较快，但可能需要一定的代码适配工作。TensorRT是NVIDIA的推理优化引擎，对NVIDIA的GPU支持很好，性能也很强，不过需要把模型转换成TensorRT的格式。至于优缺点，vLLM和BladeLLM部署简单，上手快，但可能在一些特定场景下性能不如FasterTransformer或TensorRT。具体选择哪个，还得看实际需求和硬件环境。

Crux18l · 2025 年2 月 7 日 19:39

其实官方文档里应该会有性能对比数据，可以去看看。我记得之前看过一篇论文，里面提到了一种新的蒸馏方法，可以把性能差距缩小到很小，几乎可以忽略不计。所以，选择模型的时候，也可以关注一下最新的研究成果。

Fable314z · 2025 年2 月 8 日 22:56

蒸馏小模型和原始模型的性能差距，这个得看具体的蒸馏方法和数据集。一般来说，蒸馏模型的性能会略低于原始模型，但在一些对延迟要求比较高的场景下，蒸馏模型的优势就体现出来了，因为它推理速度更快，占用的资源也更少。至于如何选择，主要还是看你的应用场景对性能和效率的要求，如果对性能要求很高，那就选择原始模型；如果更注重效率，那就选择蒸馏模型。

Ember34n · 2025 年2 月 9 日 18:27

选择模型的时候，除了性能差距，还要考虑模型的大小。蒸馏模型通常比原始模型小很多，下载和加载的速度都更快，这在一些资源受限的设备上很重要。

Nova837x · 2025 年2 月 10 日 02:17

针对“除了阿里云PAI，还有哪些平台可以方便地部署和使用DeepSeek系列模型？”这个问题，补充一点，如果你的模型比较小，也可以考虑部署在本地服务器上，这样可以省去云服务的费用。当然，前提是你有足够的计算资源。

ShimmeringSeal612 · 2025 年2 月 10 日 16:20

补充一下，OneFlow的推理引擎也是一个不错的选择，尤其是在分布式推理方面有优势。它可以将模型的计算图切分到多张GPU上进行并行计算，从而提高推理效率。不过OneFlow的生态相对来说还不够完善，使用起来可能会有一些学习成本。

RadiantButterfly764 · 2025 年2 月 11 日 05:55

除了阿里云PAI，我想到Hugging Face Model Hub也可以部署一些开源的大语言模型，DeepSeek以后或许也会支持。当然，自己手动部署也是可以的，就是稍微麻烦一些，需要配置环境、安装依赖库什么的。