DeepSeek-R1-Distill-Qwen-1.5B数学能力实测：MATH80+分-编程阁

DeepSeek-R1-Distill-Qwen-1.5B数学能力实测：MATH80+分

1. 模型背景与核心价值

近年来，大模型的“瘦身”趋势愈发明显。在追求高性能的同时，轻量化、可部署性成为边缘计算和终端设备落地的关键瓶颈。DeepSeek-R1-Distill-Qwen-1.5B 正是在这一背景下诞生的一款极具代表性的蒸馏模型。

该模型由 DeepSeek 团队使用 80 万条 DeepSeek-R1 的推理链数据，对 Qwen-1.5B 进行知识蒸馏训练而成。其目标明确：在仅 1.5B 参数规模下，逼近甚至超越更大模型（如 7B 级别）在数学推理与代码生成任务上的表现。最终结果令人振奋——在 MATH 数据集上取得 80+ 分的成绩，HumanEval 代码生成得分突破 50+，推理链保留度高达 85%。

这不仅意味着它具备强大的逻辑推导能力，更关键的是，其资源消耗极低：FP16 精度下整模仅需 3.0 GB 显存，GGUF-Q4 量化版本更是压缩至 0.8 GB，可在手机、树莓派、RK3588 嵌入式板卡等低功耗设备上流畅运行。

2. 核心技术特性解析

2.1 参数规模与部署效率

指标	数值
模型参数	1.5B Dense
FP16 显存占用	3.0 GB
GGUF-Q4 体积	0.8 GB
推荐最低显存	6 GB（支持满速推理）

得益于蒸馏过程中对教师模型（DeepSeek-R1）思维链的精准捕捉，该模型在极小参数量下实现了远超同级模型的泛化能力。尤其在数学题求解中，能够模拟多步推理过程，而非简单模式匹配。

2.2 能力评估：MATH 与 HumanEval 表现

MATH 数据集得分：80+
该分数已接近部分 7B 模型水平，表明其在高中及以上难度数学问题（代数、几何、微积分等）中具备较强解题能力。
HumanEval 得分：50+
在代码生成任务中表现稳健，适合日常脚本编写、函数实现及算法原型开发。
推理链保留度：85%
蒸馏过程中有效保留了原始 R1 模型的 CoT（Chain-of-Thought）能力，使得输出更具可解释性和逻辑连贯性。

2.3 上下文与功能支持

支持4K token 上下文长度，适用于长文本摘要、对话记忆保持等场景。
支持JSON 输出格式、函数调用（Function Calling）、Agent 插件机制，便于集成到自动化工作流或智能助手系统中。
长文档处理建议分段输入，避免超出上下文限制。

2.4 推理速度实测

平台	推理速度
苹果 A17（量化版）	~120 tokens/s
NVIDIA RTX 3060（FP16）	~200 tokens/s
RK3588 嵌入式板卡	1k token 推理耗时约 16s

在移动端和边缘设备上的高吞吐表现，使其成为本地化 AI 助手的理想选择。

2.5 商用授权与生态兼容

协议类型：Apache 2.0，允许自由使用、修改和商用，无版权风险。
已被主流推理框架集成：
vLLM：支持高并发、低延迟服务部署
Ollama：一键拉取镜像，快速本地启动
Jan：离线运行，适合隐私敏感场景

3. 实践部署方案：vLLM + Open-WebUI 构建对话应用

3.1 部署架构设计

为了最大化用户体验，我们采用vLLM 作为后端推理引擎 + Open-WebUI 作为前端交互界面的组合方案。这种架构兼顾性能与易用性，特别适合个人开发者或企业内部快速搭建私有化 AI 对话系统。

架构优势：

vLLM 提供 PagedAttention 技术，显著提升批处理效率和显存利用率
Open-WebUI 提供类 ChatGPT 的可视化界面，支持历史会话管理、模型切换、Prompt 编辑等功能
两者均支持 Docker 快速部署，降低环境配置复杂度

3.2 部署步骤详解

# 1. 拉取并运行 vLLM 容器 docker run -d --gpus all --shm-size 1g \ -p 8000:8000 \ -e MODEL=deepseek-ai/deepseek-r1-distill-qwen-1.5b \ vllm/vllm-openai:latest \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --dtype auto \ --max-model-len 4096

# 2. 启动 Open-WebUI 容器（连接 vLLM） docker run -d -p 7860:80 \ -e OPENAI_API_BASE=http://<vllm-host>:8000/v1 \ -e OPENAI_API_KEY=sk-no-key-required \ ghcr.io/open-webui/open-webui:main

注意：请将<vllm-host>替换为实际运行 vLLM 的主机 IP 地址。

3.3 访问与使用

等待几分钟，待容器完全启动后：

打开浏览器访问http://localhost:7860
登录演示账号：
账号：kakajiang@kakajiang.com
密码：kakajiang

即可开始体验 DeepSeek-R1-Distill-Qwen-1.5B 的强大数学与代码能力。

若同时运行 Jupyter 服务，可通过修改 URL 端口（8888 → 7860）跳转至 WebUI 界面。

3.4 可视化效果展示

上图展示了模型在 Open-WebUI 中的实际交互界面，支持多轮对话、代码高亮、LaTeX 数学公式渲染等功能，极大提升了使用体验。

4. 应用场景与选型建议

4.1 典型应用场景

本地代码助手：嵌入 IDE 或独立运行，辅助完成函数编写、错误调试、文档生成。
数学教育工具：为学生提供分步解题思路，支持从初中到大学阶段的数学问题求解。
边缘智能终端：部署于手机 App、平板、树莓派或工业控制板卡，实现离线 AI 服务。
企业内部知识问答系统：结合私有数据构建轻量级 Agent，响应速度快、成本低。

4.2 技术选型对比分析

模型	参数量	MATH得分	显存需求	是否可商用	本地部署难度
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	80+	3GB (FP16)	✅ Apache 2.0	⭐⭐⭐☆☆
Llama-3-8B-Instruct	8B	~75	14GB+	❌ Meta 许可证	⭐⭐⭐⭐☆
Phi-3-mini	3.8B	~70	6GB+	✅ MIT	⭐⭐⭐⭐☆
TinyLlama-1.1B	1.1B	~50	2.2GB	✅ Apache 2.0	⭐⭐⭐☆☆