AI学习笔记

DeepSeek-AI | 本地部署教程

一：前言

DeepSeek 是由杭州深度求索公司推出的免费开源人工智能助手，具备强大的文本生成、代码编程与逻辑推理能力，支持多语言交互与文件处理，因其模型轻量化和高效的特点，非常适合本地部署。我们可以在自己的电脑环境中运行这些模型，从而在保证数据隐私的同时，充分利用本地计算资源，降低对第三方云服务的依赖。此外，DeepSeek 的开源策略也为开发者提供了更多的灵活性，使他们能够根据具体业务场景对模型进行二次开发和优化，进一步提升模型的适用性和性能。
现在，您可以通过本篇教程，来自己动手安装一个属于自己的AI小助手，来实现更具有个性化的功能和帮助。

二：准备工作

1	pip install torch torchvision torchaudio

模型规模	参数量范围	推荐GPU显存	推荐RAM	存储需求
小型模型	<10亿参数	16GB	32GB	50GB - 100GB
中型模型	10亿 - 100亿参数	24GB	64GB	100GB - 500GB
大型模型	>100亿参数	40GB+	128GB+	500GB - 1TB+

以下是DeepSeek所有模型的详细比较及配置要求的表格/模型规模与硬件需求：

模型名称	特点	应用场景	CPU	GPU要求	内存	存储要求	其他依赖
DeepSeek-V3	最新版本，支持复杂推理、多轮对话、代码生成、多语言处理	科研、开发、教育、创意写作、多语言任务	至少8核	NVIDIA V100或更高	32GB以上	100GB以上 SSD	CUDA 11+,PyTorch 1.10+
DeepSeek-V2	支持多轮对话、文本生成、基础代码生成、中等复杂度推理	客服、内容创作、基础编程、数据分析	至少4核	NVIDIA T4或更高	16GB以上	50GB以上 SSD	CUDA 10+,PyTorch 1.8+
DeepSeek-V1	基础文本生成、问答、简单推理、低资源需求	基础问答、文本生成、简单任务	至少2核	无GPU或低端GPU	8GB以上	20GB以上 HDD	无特殊依赖
DeepSeek-Lite	轻量级模型，适合移动端或嵌入式设备，支持基础文本生成和问答	移动应用、嵌入式设备、低功耗场景	1-2核	无GPU	4GB以上	10GB以上 HDD	无特殊依赖
DeepSeek-Multimodal	支持多模态输入（文本、图像、音频），适合跨模态任务	多媒体分析、跨模态生成、智能助手	至少8核	NVIDIA A100或更高	64GB以上	200GB以上 SSD	CUDA 11+,PyTorch 1.10+
DeepSeek-Code	专为代码生成和编程任务优化，支持多种编程语言	代码生成、编程辅助、自动化开发	至少6核	NVIDIA V100或更高	32GB以上	100GB以上 SSD	CUDA 11+,PyTorch 1.10+

三：开始安装

1 2	# 管理员权限运行PowerShell Start-Process OllamaSetup.exe -ArgumentList "/DIR=D:\Ollama" -Verb RunAs

Ollama 环境变量配置参考：

环境变量	配置值	功能说明
OLLAMA_MODELS	`D:\OllamaImagers`	指定模型存储主目录
OLLAMA_HOST	`0.0.0.0`	开放网络API访问权限
OLLAMA_KEEP_ALIVE	`30m`	设置模型内存保留时间

注：
OLLAMA_HOST=0.0.0.0 表示允许所有IP访问
30m 即30分钟，支持单位：s(秒)、m(分)、h(小时)
路径禁止包含中文或特殊字符,建议单独划分存储分区（如D盘）
配置方法：：
Win+S搜索”环境变量” → 编辑系统环境变量
在”系统变量”区域新建/修改对应变量
执行gpupdate /force刷新策略

服务状态验证：

1	sc query OllamaService

正常状态应显示为”RUNNING”

四：模型管理

1.模型仓库解析

graph LR
A[模型架构] --> B[1.5B]
A --> C[7B]
A --> D[8B]
A --> E[14B]
A --> F[32B]
A --> G[70B]
A --> H[671B]
 
B --> I[基础NLP任务]
C --> J[多轮对话]
D --> K[语义理解]
E --> L[知识推理]
F --> M[复杂逻辑]
G --> N[科研计算]
H --> O[超大规模分析]

2.模型下载进阶操作

# 基础下载命令
ollama run deepseek-r1:8b
 
# 断点续传模式（网络不稳定时使用）
ollama pull --resume deepseek-r1:8b
 
# 多线程加速（需v0.9.12+）
set OLLAMA_NUM_PARALLEL=4
ollama pull deepseek-r1:8b

3.模型管理命令集

操作类型	命令格式	示例
列表查看	`ollama list`	-
版本回滚	`ollama checkout <commit-hash>`	`ollama checkout a1b2c3d`
模型信息	`ollama info <model>`	`ollama info deepseek-r1:8b`
批量删除	`ollama prune`	删除所有未使用模型

注：
- 参数说明：
<commit-hash>**：提交哈希值（如a1b2c3d）
<model>**：模型名称（格式：模型名:版本）
- 使用提示：
输入命令时移除尖括号 <>
ollama prune 会清除无关联模型的缓存数据
list 命令可查看所有已下载模型

五：高级部署

1.GPU加速配置

# 创建config.yaml
nvidia:
  visible_devices: 0  # 指定GPU序号
  memory_limit: 12288 # 显存限制(MB)
compute:
  blas: cuda          # 加速引擎选择

2.多模型并行方案

1
2
3

# 启动多个模型实例
ollama serve --model deepseek-r1:8b --port 11434
ollama serve --model deepseek-r1:14b --port 11435

3.API接口安全配置

# 反向代理配置示例（Nginx）
location /ollama/ {
    proxy_pass http://localhost:11434/;
    proxy_set_header Authorization "Bearer $secret_token";
    proxy_http_version 1.1;
    proxy_set_header Upgrade $http_upgrade;
    proxy_set_header Connection "upgrade";
}

六：可视化工具集成

{
  "temperature": 0.7,
  "max_tokens": 2048,
  "top_p": 0.9
}

七：故障排除手册

现象	排查步骤	解决方案
模型加载失败	1. 检查环境变量配置 2. 验证安装目录存储权限	重置安装目录ACL权限
API响应超时	1. 查看系统资源占用情况 2. 检查防火墙和安全组设置	调整模型参数或升级硬件配置
显存溢出	1. 检查batch_size设置 2. 监控显存实时使用情况	启用量化版本模型
中文支持异常	1. 验证tokenizer配置 2. 检查使用的模型版本	加载专用中文优化版本

八：性能优化建议

1.量化压缩方案：

1	ollama quantize deepseek-r1:8b --bits 4

九：安全部署规范

1.访问控制列表（ACL）配置：

1 2	icacls D:\Ollama /grant "NETWORK SERVICE:(OI)(CI)(RX)" icacls D:\OllamaImagers /grant "Administrators:(OI)(CI)(F)"

2.审计日志配置：

logging:
  level: debug
  rotation:
    max_size: 100MB
    max_age: 7d