DeepSeek-R1 模型本地部署指南:Ollama 平台快速上手

使用 Ollama 平台轻松部署 DeepSeek-R1 模型到本地,多种参数版本适配不同硬件,图形化界面增强交互体验。

原文标题:本地部署DeepSeek-R1模型

原文作者:牧羊人的方向

冷月清谈:

本文介绍了如何使用 Ollama 平台在本地部署 DeepSeek-R1 模型。DeepSeek-R1 是一个开源的大语言模型,拥有多种参数版本,适用于不同硬件配置和应用场景。文章首先介绍了 Ollama 平台的安装和使用方法,包括指定安装目录、模型下载路径以及版本查看。然后,详细说明了如何安装 DeepSeek-R1 模型,列举了不同参数版本的适用场景和硬件需求,并以 8B 参数版本为例,演示了在 Windows 系统下的部署步骤。最后,文章还推荐了 Chatbox AI 作为图形化界面,方便用户与本地模型进行交互。

怜星夜思:

1、除了 Ollama,还有哪些其他的本地部署方案适合 DeepSeek-R1 模型?各自的优缺点是什么?
2、文章中提到了 DeepSeek-R1 模型的不同参数版本,如何选择合适的版本?除了硬件资源,还需要考虑哪些因素?
3、DeepSeek-R1 模型与其他开源大语言模型(如LLaMA、ChatGLM等)相比,有哪些优势和不足?

原文内容

由于DeepSeek-R1已开源,在体验时候有几种方法,比如访问官网、本地化部署,基于模型的微调等。

  • 官方平台:访问官网(https://www.deepseek.com/ )直接试用基础功能。
  • API服务:开发者可通过API调用模型,输入Tokens成本低至1元/百万(缓存命中时),适合初创企业。
  • 本地化部署:使用Ollama或Hugging Face平台(https://huggingface.co/deepseek-ai)部署模型,支持Linux/Windows系统。
  • 模型微调:基于开源的660B参数模型(DeepSeek-R1-Zero),用户可针对垂直领域进行微调。
  • 蒸馏小模型:利用官方提供的蒸馏技术,将大模型压缩为1.5B~70B参数的小模型,适配移动端应用

本文介绍基于Ollama平台在本地部署DeepSeek-R1模型。

1、Ollama平台安装

Ollama 是一个专注于本地化部署和运行大型语言模型(LLM)的开源平台,旨在简化大模型的开发、管理与应用流程。Ollama的核心优势在于将LLM封装为轻量级Docker镜像,通过命令行工具和API实现模型的本地运行与管理。用户无需复杂配置即可在个人电脑或服务器上部署主流模型(如Llama3、Gemma、Mistral等),Ollama可以自动识别并优化硬件资源(如GPU),显著提升推理速度与效率。Ollama通过ollama run运行模型、ollama pull下载模型,ollama list查看已安装模型,ollama rm删除冗余模型。

官网下载地址:https://ollama.com/download/,支持Windows、Linux和macOS。

1)安装到指定目录
默认会安装在C盘,如果想指定安装到某个目录,可以使用如下命令在powershell终端执行:

.\OllamaSetup.exe /DIR=" D:\LLM\Ollama "

会强制将Ollama主程序安装到D:\Programs\Ollama目录下

2)指定默认模型下载路径

模型默认下载到C:\Users<用户名>.ollama\models下,可以通过指定环境变量将模型下载到指定的路径下。添加系统变量修改模型默认下载路径,变量名:OLLAMA_MODELS

若已下载模型需迁移,可直接将 C:\Users<用户名>.ollama\models 下的 blobs 和 manifests 文件夹复制到新路径,再重启 Ollama。

3)查看Ollama版本

安装完成后在powershell查看ollama版本信息,表示安装成功

PS D:\LLM> ollama -v
ollama version is 0.5.7
2、安装DeepSeek-R1模型

Ollama支持的DeepSeek-R1参数版本包括以下多个规模,可根据硬件配置选择适合的模型:

  • 1.5B参数版:命令为 ollama run deepseek-r1:1.5b

    • 适用场景:轻量级任务,如简单文本编辑、基础问答、低资源环境下的测试场景。
    • 硬件需求:至少4GB内存,适合显存低于4GB的GPU或集成显卡
  • 7B参数版(默认版本,显存需求约6-8GB):直接运行 ollama run deepseek-r1 会默认加载7B版本,平衡性能与资源占用。

    • 适用场景:日常使用场景,如文本生成、简单代码调试、教育辅助问答等
    • 硬件需求:建议6GB以下显存,需4.7GB存储空间
  • 8B参数版(显存需求约10GB):命令为 ollama run deepseek-r1:8b

    • 适用场景:中等复杂度任务(如代码生成、逻辑推理),适用于Llama架构的蒸馏版模型。
    • 硬件需求:需约10GB显存,存储空间4.9GB
  • 14B参数版:命令为 ollama run deepseek-r1:14b

    • 适用场景:高级任务处理,如中等规模数据分析、教育领域复杂题目解析。
    • 硬件需求:显存建议12GB左右,存储空间9GB
  • 32B参数版(显存需求约24GB):命令为 ollama run deepseek-r1:32b。

    • 适用场景:专业用途,如代码生成、复杂问题解答,性能接近OpenAI o1-mini。
    • 硬件需求:需24GB左右显存,存储空间20GB
  • 70B参数版(最大规模,显存需求24GB+):命令为 ollama run deepseek-r1:70b,提供最高推理能力,需顶级显卡(如多卡配置)。

    • 适用场景:高性能需求任务,如专业领域知识问答、中大规模内容生成。
    • 硬件需求:需24GB+显存(如NVIDIA A100),存储空间43GB
  • 671B参数版(全尺寸模型,需极高资源):命令为 ollama run deepseek-r1:671b。

    • 适用场景:科研、商业决策分析、复杂逻辑推理等高精度需求场景。例如数学证明、编程任务解析、公司经营策略模拟等。。
    • 硬件需求:需多块高端GPU(如16张NVIDIA A100 80GB显卡),显存需1342GB以上,仅支持集群部署,普通用户难以本地运行

本文以deepseek-r1:8b模型为例进行本地化部署,电脑配置如下:

  • CPU:[email protected];4C
  • 内存:12G
  • 显卡:NVIDIA GeForce 940MX
  • 操作系统:Windows 10

1)下载deepseek-r1:8b模型

因为电脑配置,本地部署8B模型,在终端执行命令

ollama run deepseek-r1:8b

首次运行时,系统会自动下载 4.9GB 左右的模型文件,下载完成后执行命令

PS D:\LLM> ollama list 
NAME ID SIZE MODIFIED 
deepseek-r1:8b 28f8fd6cdc67 4.9 GB About an hour ago

2)运行deepseek-r1:8b模型

  • 介绍下自己,模型数据最新到2024年7月
图片

我是DeepSeek-R1,一个由深度求索公司开发的智能助手,我擅长通过思考来帮您解答复杂的数学,代码和逻辑推理等理工类问题。我的知识截止到2024年7月,同时我也可以联网获取最新的信息。如果你有任何问题,随时告诉我,我会尽力提供帮助!

  • 这里的深度思考环节提示是ChatGPT的数据,可能拿了ChatGPT的数据做了训练
  • 计算20以内的素数推理过程

本地运行硬件配置有限,运行过于缓慢,目前只能这样了。

3、Chatbox图形化界面

如果更喜欢类似 ChatGPT 那样的可视化界面,可以安装 Chatbox AI。
官网地址:https://chatboxai.app/zh

下载完成后选择默认配置安装。安装完成后,连接本地模型,进入设置,在“模型设置”里选择:

  • API 类型:Ollama API
  • 模型名称:deepseek-r1:8b
  • 温度值:建议 0.3-0.7,数值越低,AI 回答越保守
  • 最大生成长度:建议 2048 tokens,这样回答更丰富

以上是DeepSeek-R1本地部署的过程,由于硬件资源限制,跑起来费力。

参考资料:

  1. https://www.cnblogs.com/WilliamB/p/18069441
  2. DeepSeek AI模型本地化部署全攻略

如果考虑更全面的部署方案,还可以研究下像 Triton Inference Server 这样的方案,它支持多种深度学习框架,可以更灵活地管理和部署模型,不过配置会比较复杂。

除了文章提到的这些,我觉得还要考虑数据的规模和质量,如果数据量不足或者质量不高,即使使用大参数模型,效果也不一定好,反而可能出现过拟合等问题。

选择哪个版本主要看你的钱包和耐心吧,参数越大效果越好,当然也更烧钱,推理速度也更慢,如果只是随便玩玩,小参数版本就足够了,如果想体验更强大的功能,那就得砸钱升级硬件了。

我记得还有个llama.cpp,好像也可以用来部署大模型,不过需要自己编译,感觉有点麻烦,Ollama 简单粗暴,适合我这种懒人。

DeepSeek-R1开源时间还比较短,生态不如LLaMA成熟,不过发展速度很快,值得关注。

选择模型版本时,除了硬件资源,还需要考虑具体应用场景、精度需求和推理速度。例如,简单的文本编辑任务可以选择参数较小的版本,而复杂的代码生成任务则需要参数较大的版本。如果对推理速度要求较高,可以牺牲一定的精度,选择参数较小的版本。

个人觉得DeepSeek-R1 的优势在于中文理解能力更强,毕竟是国产模型,更懂中文的梗和表达方式,而且更新速度也很快,一直在不断改进。

DeepSeek-R1 模型在逻辑推理和代码生成方面表现出色,但在某些特定领域,如文学创作,可能不如其他模型。与 LLaMA 相比,DeepSeek-R1 更注重实用性,而 ChatGLM 则更偏向于中文理解和生成。

除了 Ollama,还可以使用 Hugging Face Transformers 和 Text Generation Inference。Transformers 提供了更灵活的模型加载和推理方式,但需要一定的代码基础。Text Generation Inference 则更专注于文本生成任务,对硬件资源的要求较低。Ollama 的优势在于易用性和对不同模型的兼容性。