Windows 环境要求
在开始之前,建议先确认当前电脑是否满足本地推理的基础要求。
虽然 Ollama 对硬件要求并不算特别高,但模型推理会持续占用:
• GPU显存
• 系统内存
• 硬盘缓存
• CPU 调度资源
如果配置过低,可能会出现:
• 推理速度过慢
• GPU 无法加载模型
• 系统卡顿
• 长时间运行崩溃
推荐配置如下
| 项目 | 推荐配置 |
|---|---|
| 操作系统 | Windows 10 / Windows 11 64位 |
| 内存 | ≥16GB(推荐32GB) |
| 显卡 | NVIDIA RTX 系列(推荐 RTX3060 及以上) |
| 显存 | 建议 8GB 以上 |
| 硬盘空间 | 至少 50GB 可用空间 |
| 显卡驱动 | 最新 NVIDIA 驱动 |
实际测试中,RTX2060 虽然能够运行部分 7B 模型,但长时间推理时显存压力会比较明显;而 RTX3060 12GB 在本地开发环境下会更加稳定。
1.2. 检查 NVIDIA 显卡环境
在安装 Ollama 之前,建议先确认 GPU 是否能够被系统正常识别。
打开命令行执行:
nvidia-smi
如果能够看到以下信息:
• GPU 型号
• 显存大小
• 驱动版本
• CUDA 版本
说明当前 GPU 环境基本正常。
如果无法识别 GPU,则需要优先安装 NVIDIA 驱动。
1.3. 安装 Ollama
Ollama 是目前本地大模型部署中最流行的工具之一。
它最大的优势是:
• 安装简单
• 模型管理方便
• 支持多种主流模型
• API 调用非常友好
• 对开发者环境支持较好
1.3.0图文示意步骤
1.3.1 下载 Ollama
访问网站有以下几个:
文档(Docs):https://docs.ollama.com
下载页面:Download Ollama on macOS
GitHub(开源代码):https://github.com/ollama/ollama
访问官网如下所示:
下载 Windows 版本并安装。
1.3.2 安装完成验证
安装完成后打开命令行,执行:
ollama -v
如果输出版本号,说明安装成功,如下图所示:
1.4. 运行第一个本地模型
Ollama 支持大量主流开源模型,例如:
• DeepSeek
• Qwen
• Llama
• Gemma
• Mistral
首次运行模型时,系统会自动下载模型文件。
不同模型指令图形示意
1.4.1 运行 DeepSeek 模型
ollama run deepseek-r1:7b
首次运行时会自动下载模型,请耐心等待。如下图所示
1.4.2 运行 Qwen 模型
ollama run qwen2.5:7b
1.4.3 运行 Llama 模型
ollama run llama3
1.5. 查看已安装模型
ollama list
可以看到当前本地已下载的模型列表。如下图所示:
1.6. 模型存储位置(Windows)
Ollama 默认模型存储路径,具体取决于安装时候的设置。
C:\Users\你的用户名.ollama\models
如果后续需要清理空间,可以从这里管理模型文件。
1.7. 验证 GPU 是否参与推理
例如要求写个集装箱算法: