零代码快速部署DeepSeek-V3/R1模型

阿里云PAI Model Gallery现已支持DeepSeek-V3/R1一键部署,零代码即可体验从训练到推理全流程。

原文标题:3步,0代码!一键部署DeepSeek-V3、DeepSeek-R1

原文作者:阿里云开发者

冷月清谈:

通过阿里云PAI Model Gallery,用户可以便捷地一键部署DeepSeek-V3和DeepSeek-R1模型,实现从训练到部署再到推理的完整流程,无需编写任何代码。

具体步骤如下:
1. 进入Model Gallery页面:登录PAI控制台,选择工作空间,然后进入"快速开始 > Model Gallery"。
2. 进入DeepSeek模型详情页:在模型列表中找到目标模型(例如DeepSeek-R1-Distill-Qwen-7B),点击进入详情页面。
3. 一键部署模型:点击右上角"部署"按钮。DeepSeek-R1支持vLLM加速部署;DeepSeek-V3支持vLLM加速部署和Web应用部署;DeepSeek-R1蒸馏小模型支持BladeLLM和vLLM加速部署。选择部署方式和资源后,即可一键部署生成PAI-EAS服务。

部署完成后,在服务页面查看调用信息,获取Endpoint和Token。教程中部署的模型是蒸馏后的DeepSeek-R1-Distill-Qwen-7B,它在保持高效性能的同时降低了计算成本。此外,平台也支持DeepSeek-R1和DeepSeek-V3原始模型的部署。

怜星夜思:

1、除了提到的vLLM和BladeLLM,还有哪些推理框架适合部署DeepSeek系列模型?各自的优缺点是什么?
2、DeepSeek-R1蒸馏小模型相比原始模型,性能差距有多大?在实际应用场景中,如何选择合适的模型?
3、除了阿里云PAI,还有哪些平台可以方便地部署和使用DeepSeek系列模型?

原文内容

阿里云PAI Model Gallery支持云上一键部署DeepSeek-V3、DeepSeek-R1。

在该平台上用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。


第一步:进入Model Gallery页面

击文末阅读原文,或复制链接:
https://pai.console.aliyun.com/?utm_content=g_1000401510 
登录PAI控制台,在顶部左上角根据实际情况选择地域。并在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。最后在左侧导航栏选择快速开始>Model Gallery。



第二步:进入DeepSeek模型详情页

在Model Gallery页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“DeepSeek-R1-Distill-Qwen-7B”模型,进入模型详情页面。



第三步:一键部署DeepSeek模型生成服务

单击右上角部署:目前DeepSeek-R1支持采用vLLM加速部署;DeepSeek-V3 支持vLLM加速部署以及Web应用部署;DeepSeek-R1蒸馏小模型支持采用BladeLLM(阿里云PAI自研高性能推理框架)和vLLM加速部署。选择部署方式和部署资源后,即可一键部署服务,生成一个PAI-EAS服务。

部署成功后,在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。


为了更高性价比地实现DeepSeek系列模型与现有业务的高效融合,本教程部署的模型为蒸馏过后的DeepSeek-R1-Distill-Qwen-7B。基于 DeepSeek-R1 的推理能力,通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。同时,阿里云PAI Model Gallery也提供 DeepSeek-R1、DeepSeek-V3原始模型的一键部署。

现在很多云厂商都提供类似的模型部署服务,比如百度的BML、腾讯的TI-EMS等等。你可以看看这些平台是否支持DeepSeek系列模型,或者是否有类似功能的模型。

关于DeepSeek系列模型适用的推理框架,除了vLLM和BladeLLM,其实还可以考虑像FasterTransformer、TensorRT之类的。FasterTransformer对Transformer模型结构做了很多优化,推理速度比较快,但可能需要一定的代码适配工作。TensorRT是NVIDIA的推理优化引擎,对NVIDIA的GPU支持很好,性能也很强,不过需要把模型转换成TensorRT的格式。至于优缺点,vLLM和BladeLLM部署简单,上手快,但可能在一些特定场景下性能不如FasterTransformer或TensorRT。具体选择哪个,还得看实际需求和硬件环境。

其实官方文档里应该会有性能对比数据,可以去看看。我记得之前看过一篇论文,里面提到了一种新的蒸馏方法,可以把性能差距缩小到很小,几乎可以忽略不计。所以,选择模型的时候,也可以关注一下最新的研究成果。

蒸馏小模型和原始模型的性能差距,这个得看具体的蒸馏方法和数据集。一般来说,蒸馏模型的性能会略低于原始模型,但在一些对延迟要求比较高的场景下,蒸馏模型的优势就体现出来了,因为它推理速度更快,占用的资源也更少。至于如何选择,主要还是看你的应用场景对性能和效率的要求,如果对性能要求很高,那就选择原始模型;如果更注重效率,那就选择蒸馏模型。

选择模型的时候,除了性能差距,还要考虑模型的大小。蒸馏模型通常比原始模型小很多,下载和加载的速度都更快,这在一些资源受限的设备上很重要。

针对“除了阿里云PAI,还有哪些平台可以方便地部署和使用DeepSeek系列模型?”这个问题,补充一点,如果你的模型比较小,也可以考虑部署在本地服务器上,这样可以省去云服务的费用。当然,前提是你有足够的计算资源。

补充一下,OneFlow的推理引擎也是一个不错的选择,尤其是在分布式推理方面有优势。它可以将模型的计算图切分到多张GPU上进行并行计算,从而提高推理效率。不过OneFlow的生态相对来说还不够完善,使用起来可能会有一些学习成本。

除了阿里云PAI,我想到Hugging Face Model Hub也可以部署一些开源的大语言模型,DeepSeek以后或许也会支持。当然,自己手动部署也是可以的,就是稍微麻烦一些,需要配置环境、安装依赖库什么的。