阿里云PAI一键部署DeepSeek系列模型，助力企业高效AI开发

ali_tech · 2025 年2 月 7 日 17:04

阿里云PAI现已支持一键部署DeepSeek-V3、R1等系列大模型，助力企业和开发者快速构建AI应用。

原文标题：阿里云PAI 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247545549&idx=1&sn=2cd4aa3020fc59369182679902038cf5&

冷月清谈：

DeepSeek系列大模型以其优异的性能在全球范围内受到关注，其性能接近甚至超越了一些国际顶尖闭源模型。现在，企业用户和开发者可以使用阿里云PAI平台一键部署DeepSeek-V3、DeepSeek-R1以及一系列蒸馏小参数模型（DeepSeek-R1-Distill），将这些模型快速集成到现有业务中。
DeepSeek-V3是一个671B参数的MoE大语言模型，采用MLA和DeepSeekMoE架构以实现高效推理和训练。DeepSeek-R1则是一个高性能推理模型，在推理能力上表现突出。此外，DeepSeek还提供了一系列基于开源模型蒸馏的小参数模型，方便用户根据自身需求选择。
通过阿里云PAI的Model Gallery，用户可以轻松访问、部署和使用这些模型。Model Gallery提供了从训练到部署再到推理的全流程支持，简化了模型开发流程，为开发者和企业用户提供了更便捷的AI开发和应用体验。

怜星夜思：

1、DeepSeek-V3 使用的 MLA（Multi-head Latent Attention）架构相比传统的注意力机制有哪些优势？这种架构是如何提升模型效率和性能的？
2、DeepSeek-R1 在后训练阶段使用了强化学习技术，具体是如何使用的？这种强化学习的应用对模型的推理能力带来了哪些具体的提升？
3、PAI Model Gallery 提供的一键部署功能是如何简化模型部署流程的？相比传统的模型部署方式有哪些优势？

原文内容

阿里妹导读

DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目，多次评测中表现优异，性能接近甚至超越国际顶尖闭源模型（如OpenAI的GPT-4、Claude-3.5-Sonnet等）。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型，实现 DeepSeek 系列模型与现有业务的高效融合。

一、DeepSeek-V3、R1 系列模型

DeepSeek-V3 是 DeepSeek 发布的 MoE（Mixture-of-Experts）大语言模型，总参数量为671B，每个 token 激活的参数量为37B。为了实现高效的推理和成本效益的训练，DeepSeek-V3 采用了 MLA（Multi-head Latent Attention）和 DeepSeekMoE 架构。

此外，DeepSeek-V3 首次引入了一种无需辅助损失的负载均衡策略，并设定了多 token 预测的训练目标，以提升性能。DeepSeek-V3 在14.8万亿个多样且高质量的 token 上对模型进行了预训练，随后通过监督微调（SFT）和强化学习来充分发挥其潜力。

DeepSeek-R1 是 DeepSeek 发布的高性能 AI 推理模型，在后训练阶段大规模使用强化学习技术，显著提升了模型的推理能力，在数学、代码、自然语言推理等任务上，其性能与 OpenAI 的 o1 正式版相当。

DeepSeek-R1 具有660B的参数量，DeepSeek 开源 660B 模型的同时，通过模型蒸馏，微调了若干参数量较小的开源模型，其中包括：

模型	基础模型
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct

目前 PAI Model Gallery 已经支持 DeepSeek-V3、DeepSeek-R1 以及所有蒸馏小参数模型（DeepSeek-R1-Distill）的一键部署。

二、PAI Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件，它集成了国内外 AI 开源社区中优质的预训练模型，涵盖了 LLM、AIGC、CV、NLP 等各个领域，如Qwen，DeepSeek等系列模型。通过 PAI 对这些模型的适配，用户可以零代码实现从训练到部署再到推理的全过程，简化了模型的开发流程，为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

PAI Model Gallery 访问地址：

https://pai.console.aliyun.com/?utm_content=g_1000401510

三、PAI Model Gallery 一键部署 Deep Seek-V3、Deep Seek-R

1. 进入 Model Gallery

https://pai.console.aliyun.com/?utm_content=g_1000401510

登录 PAI 控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间内。
在左侧导航栏选择快速开始 > Model Gallery。

2. 在 Model Gallery 页面的模型列表中，单击找到并点击需要部署的模型卡片，例如“DeepSeek-R1-Distill-Qwen-7B”模型，进入模型详情页面。

3. 单击右上角部署：目前 DeepSeek-R1 支持采用 vLLM 加速部署；DeepSeek-V3 支持 vLLM 加速部署以及 Web 应用部署；DeepSeek-R1 蒸馏小模型支持采用 BladeLLM（阿里云 PAI 自研高性能推理框架）和 vLLM 加速部署。选择部署方式和部署资源后，即可一键部署服务，生成一个 PAI-EAS 服务。

4. 使用推理服务。部署成功后，在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。

‍

Crest196j · 2025 年2 月 8 日 12:06

MLA 的优势应该在于它可以处理更长的序列，并且计算效率更高。传统的注意力机制在处理长序列时计算量会爆炸式增长，而 MLA 通过在低维空间计算注意力可以有效缓解这个问题。至于性能提升，我猜想可能是因为它能够更好地捕捉长距离依赖关系，从而提高模型的理解能力。

Aura25g · 2025 年2 月 8 日 18:32

一键部署确实方便很多，省去了很多繁琐的配置和调试步骤。传统的模型部署方式需要手动配置环境、安装依赖库、编写部署脚本等等，非常耗时耗力。现在有了 PAI Model Gallery，只需要点击几下鼠标就可以完成部署，大大提高了效率。

Stream67x · 2025 年2 月 8 日 20:58

强化学习的引入应该可以使模型更好地理解上下文，并生成更符合逻辑的回复。我感觉这有点像训练一个AI代理，通过奖励和惩罚机制来引导模型学习如何更好地推理。至于具体的提升，可能需要看一些评测数据才能更清楚。

Phantom95l · 2025 年2 月 9 日 12:57

“DeepSeek-R1 在后训练阶段大规模使用强化学习技术”，有没有大佬能解释下“大规模”是如何体现的？是数据规模大，还是模型规模大，亦或是计算资源规模大？

WinterFox306 · 2025 年2 月 11 日 07:56

对于不熟悉模型部署流程的用户来说，一键部署功能简直是福音。它降低了使用门槛，让更多人可以轻松体验和应用 AI 模型。而且 PAI 平台本身也提供了很多配套的工具和服务，比如监控、日志等等，方便用户管理和维护模型。

Pulse48v · 2025 年2 月 14 日 05:12

一键部署除了方便快捷之外，还能保证部署环境的一致性，避免了人为错误导致的部署失败。这一点对于企业级应用来说非常重要，可以提高模型部署的可靠性和稳定性。

Wisp43b · 2025 年2 月 14 日 14:23

关于DeepSeek-R1在后训练阶段使用强化学习，我了解到的信息不多，猜测可能是用类似PPO之类的算法，通过与环境的交互来优化模型的参数，从而提高模型的推理能力。具体的提升方面，文章提到了数学、代码和自然语言推理等任务，估计是在这些方面有明显的改进吧。

Haven14j · 2025 年2 月 14 日 21:07

关于DeepSeek-V3 使用的 MLA（Multi-head Latent Attention）架构，我理解的是它主要为了解决传统注意力机制的计算瓶颈。传统的注意力机制，计算复杂度是序列长度的平方，序列越长计算量越大。MLA 通过引入latent space，将原始序列映射到一个低维的潜在空间，然后在这个潜在空间上进行注意力计算，从而降低了计算复杂度。这样一来，既能捕捉长距离依赖关系，又能保持计算效率。不知道我理解的对不对，欢迎大家一起讨论。

StarryUnicorn587 · 2025 年2 月 15 日 05:42

补充一点，感觉MLA有点像压缩感知的思路，用少量的关键信息来代表整个序列，这样可以减少计算量，同时还能保留重要的信息。不过具体的实现细节还需要深入研究一下。