DeepSeek-AI | 本地部署教程

一:前言

二:准备工作

模型规模参数量范围推荐GPU显存推荐RAM存储需求
小型模型<10亿参数16GB32GB50GB - 100GB
中型模型10亿 - 100亿参数24GB64GB100GB - 500GB
大型模型>100亿参数40GB+128GB+500GB - 1TB+
模型名称特点应用场景CPUGPU要求内存存储要求其他依赖
DeepSeek-V3最新版本,支持复杂推理、多轮对话、代码生成、多语言处理科研、开发、教育、创意写作、多语言任务至少8核NVIDIA V100或更高32GB以上100GB以上 SSDCUDA 11+,PyTorch 1.10+
DeepSeek-V2支持多轮对话、文本生成、基础代码生成、中等复杂度推理客服、内容创作、基础编程、数据分析至少4核NVIDIA T4或更高16GB以上50GB以上 SSDCUDA 10+,PyTorch 1.8+
DeepSeek-V1基础文本生成、问答、简单推理、低资源需求基础问答、文本生成、简单任务至少2核无GPU或低端GPU8GB以上20GB以上 HDD无特殊依赖
DeepSeek-Lite轻量级模型,适合移动端或嵌入式设备,支持基础文本生成和问答移动应用、嵌入式设备、低功耗场景1-2核无GPU4GB以上10GB以上 HDD无特殊依赖
DeepSeek-Multimodal支持多模态输入(文本、图像、音频),适合跨模态任务多媒体分析、跨模态生成、智能助手至少8核NVIDIA A100或更高64GB以上200GB以上 SSDCUDA 11+,PyTorch 1.10+
DeepSeek-Code专为代码生成和编程任务优化,支持多种编程语言代码生成、编程辅助、自动化开发至少6核NVIDIA V100或更高32GB以上100GB以上 SSDCUDA 11+,PyTorch 1.10+

三:开始安装

1
2
# 管理员权限运行PowerShell
Start-Process OllamaSetup.exe -ArgumentList "/DIR=D:\Ollama" -Verb RunAs
环境变量配置值功能说明
OLLAMA_MODELSD:\OllamaImagers指定模型存储主目录
OLLAMA_HOST0.0.0.0开放网络API访问权限
OLLAMA_KEEP_ALIVE30m设置模型内存保留时间

​:

  • OLLAMA_HOST=0.0.0.0 表示允许所有IP访问
  • 30m 即30分钟,支持单位:s(秒)、m(分)、h(小时)
  • 路径禁止包含中文或特殊字符,建议单独划分存储分区(如D盘)
  • 配置方法::
  • Win+S搜索”环境变量” → 编辑系统环境变量
  • 在”系统变量”区域新建/修改对应变量
  • 执行gpupdate /force刷新策略
1
sc query OllamaService

四:模型管理

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
graph LR
A[模型架构] --> B[1.5B]
A --> C[7B]
A --> D[8B]
A --> E[14B]
A --> F[32B]
A --> G[70B]
A --> H[671B]

B --> I[基础NLP任务]
C --> J[多轮对话]
D --> K[语义理解]
E --> L[知识推理]
F --> M[复杂逻辑]
G --> N[科研计算]
H --> O[超大规模分析]
1
2
3
4
5
6
7
8
9
# 基础下载命令
ollama run deepseek-r1:8b

# 断点续传模式(网络不稳定时使用)
ollama pull --resume deepseek-r1:8b

# 多线程加速(需v0.9.12+)
set OLLAMA_NUM_PARALLEL=4
ollama pull deepseek-r1:8b
操作类型命令格式示例
列表查看ollama list-
版本回滚ollama checkout <commit-hash>ollama checkout a1b2c3d
模型信息ollama info <model>ollama info deepseek-r1:8b
批量删除ollama prune删除所有未使用模型

​:
​- 参数说明:

  • <commit-hash>**​:提交哈希值(如a1b2c3d)
  • <model>**​:模型名称(格式:模型名:版本

​- 使用提示:

  • 输入命令时移除尖括号 <>
  • ollama prune 会清除无关联模型的缓存数据
  • list 命令可查看所有已下载模型

五:高级部署

1
2
3
4
5
6
# 创建config.yaml
nvidia:
visible_devices: 0 # 指定GPU序号
memory_limit: 12288 # 显存限制(MB)
compute:
blas: cuda # 加速引擎选择
1
2
3
# 启动多个模型实例
ollama serve --model deepseek-r1:8b --port 11434
ollama serve --model deepseek-r1:14b --port 11435
1
2
3
4
5
6
7
8
# 反向代理配置示例(Nginx)
location /ollama/ {
proxy_pass http://localhost:11434/;
proxy_set_header Authorization "Bearer $secret_token";
proxy_http_version 1.1;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
}

六:可视化工具集成

1
2
3
4
5
{
"temperature": 0.7,
"max_tokens": 2048,
"top_p": 0.9
}

七:故障排除手册

现象排查步骤解决方案
模型加载失败1. 检查环境变量配置
2. 验证安装目录存储权限
重置安装目录ACL权限
API响应超时1. 查看系统资源占用情况
2. 检查防火墙和安全组设置
调整模型参数或升级硬件配置
显存溢出1. 检查batch_size设置
2. 监控显存实时使用情况
启用量化版本模型
中文支持异常1. 验证tokenizer配置
2. 检查使用的模型版本
加载专用中文优化版本

八:性能优化建议

1
ollama quantize deepseek-r1:8b --bits 4

九:安全部署规范

1
2
icacls D:\Ollama /grant "NETWORK SERVICE:(OI)(CI)(RX)"
icacls D:\OllamaImagers /grant "Administrators:(OI)(CI)(F)"
1
2
3
4
5
logging:
level: debug
rotation:
max_size: 100MB
max_age: 7d