使用FastAPI构建DeepSeek-R1-Distill-Qwen-1.5B API服务-编程阁

使用FastAPI构建DeepSeek-R1-Distill-Qwen-1.5B API服务

1. 为什么选择这个组合：轻量模型与高性能框架的默契配合

最近在本地部署大模型时，发现一个很实际的问题：像DeepSeek-R1这样的大模型动辄几十GB显存需求，普通开发机根本跑不起来。这时候DeepSeek-R1-Distill-Qwen-1.5B就显得特别实在——它只有15亿参数，模型文件约6.7GB，在一块24GB显存的RTX 4090上就能稳稳运行，响应速度也足够日常开发使用。

但光有模型还不够，得有个好用的接口。我试过直接用transformers库写个简单HTTP服务，结果发现并发一上来就卡顿，错误处理也不够友好。后来换成FastAPI，体验完全不同：自动文档、异步支持、类型校验、依赖注入，这些特性让API服务变得既健壮又省心。

FastAPI和这个蒸馏模型搭配起来有种天然的契合感。模型本身轻量，不需要太多计算资源；FastAPI则把服务层的开销压到最低，两者结合后，你得到的不是一个勉强能用的demo，而是一个真正可以放进工作流里的生产级API。我自己用它做了个内部知识问答工具，从请求到返回平均只要1.8秒，比之前用Flask写的版本快了近三倍。

如果你也在找一个既能本地运行、又不至于牺牲太多性能的方案，这个组合值得认真考虑。它不追求参数量上的震撼，而是专注解决实际问题：让AI能力真正流动起来，而不是困在笔记本里。

2. 环境准备：从零开始搭建服务基础

2.1 硬件与系统要求

先说清楚硬件门槛，避免大家白忙活。DeepSeek-R1-Distill-Qwen-1.5B对硬件的要求其实挺友好的：

GPU：一块24GB显存的消费级显卡就足够，比如RTX 4090或A6000。如果只有12GB显存的3090，需要加点技巧（后面会讲）
内存：至少32GB系统内存，推荐64GB，因为加载模型时会有额外开销
存储：模型文件约6.7GB，建议预留15GB以上空间，方便后续缓存和日志
系统：Ubuntu 22.04或24.04最稳妥，Windows WSL2也能跑，但Mac M系列芯片需要特殊处理（用MLX格式）

我自己的测试环境是Ubuntu 22.04 + RTX 4090 + 64GB内存，整个过程非常顺滑。如果你用的是云服务器，阿里云的gn7i-c8g1.2xlarge实例规格就很合适，24GB显存+30GB内存完全够用。

2.2 安装核心依赖

打开终端，按顺序执行这些命令。别急着复制粘贴，注意每一步的作用：

# 创建独立的Python环境，避免和其他项目冲突 python3 -m venv deepseek-api-env source deepseek-api-env/bin/activate # 升级pip并安装基础包 pip install --upgrade pip pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 安装transformers和tokenizers，这是加载模型的核心 pip install transformers accelerate sentencepiece # FastAPI生态必备 pip install fastapi uvicorn python-multipart # 可选但强烈推荐：用于处理长文本和流式响应 pip install tiktoken

这里有个小提醒：如果你的GPU驱动版本比较老，或者CUDA版本不匹配，安装torch时可能会报错。最简单的解决办法是去PyTorch官网查对应你CUDA版本的安装命令，复制过来执行就行。

2.3 下载并验证模型

模型可以从Hugging Face直接下载。我建议用下面这个命令，它会自动处理缓存和权限问题：

# 创建模型存放目录 mkdir -p ./models/deepseek-r1-distill-qwen-1.5b # 使用huggingface-cli下载（需要先登录hf-cli login） huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B \ --local-dir ./models/deepseek-r1-distill-qwen-1.5b \ --local-dir-use-symlinks False

如果不想登录Hugging Face账号，也可以用git clone方式：

# 先安装git-lfs curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs git lfs install # 然后克隆模型 git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B mv DeepSeek-R1-Distill-Qwen-1.5B ./models/deepseek-r1-distill-qwen-1.5b

下载完成后，检查一下文件完整性：

ls -lh ./models/deepseek-r1-distill-qwen-1.5b/

你应该能看到config.json、pytorch_model.bin、tokenizer.model等关键文件。如果只有几个几百KB的小文件，说明下载不完整，需要重新下载。

3. 构建核心API服务：从加载模型到响应请求

3.1 模型加载与推理封装

这一步是整个服务的心脏。我们不直接在API路由里加载模型，而是先封装成一个可复用的类。创建一个model_loader.py文件：

# model_loader.py import torch from transformers import AutoTokenizer, AutoModelForCausalLM from typing import Optional, Dict, Any class DeepSeekModel: def __init__(self, model_path: str, device: str = "cuda"): self.device = device if torch.cuda.is_available() else "cpu" print(f"Loading model to {self.device}...") # 加载分词器和模型 self.tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True, use_fast=True ) # 关键设置：避免padding token问题 if self.tokenizer.pad_token is None: self.tokenizer.pad_token = self.tokenizer.eos_token self.model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float16 if self.device == "cuda" else torch.float32, device_map="auto" if self.device == "cuda" else None, trust_remote_code=True, low_cpu_mem_usage=True ) # 启用flash attention（如果可用），提升推理速度 if hasattr(self.model.config, "attn_implementation"): self.model.config.attn_implementation = "flash_attention_2" def generate_text( self, prompt: str, max_length: int = 512, temperature: float = 0.7, top_p: float = 0.9, repetition_penalty: float = 1.1 ) -> str: """生成文本的核心方法""" # 编码输入 inputs = self.tokenizer( prompt, return_tensors="pt", padding=True, truncation=True, max_length=2048 ).to(self.device) # 生成配置 generation_config = { "max_new_tokens": max_length, "temperature": temperature, "top_p": top_p, "repetition_penalty": repetition_penalty, "do_sample": True, "pad_token_id": self.tokenizer.pad_token_id, "eos_token_id": self.tokenizer.eos_token_id, } # 执行生成 with torch.no_grad(): outputs = self.model.generate( **inputs, **generation_config ) # 解码并清理输出 generated_text = self.tokenizer.decode( outputs[0], skip_special_tokens=True ) # 移除输入部分，只保留生成内容 if prompt in generated_text: generated_text = generated_text[len(prompt):].strip() return generated_text # 全局模型实例，避免重复加载 _model_instance: Optional[DeepSeekModel] = None def get_model(model_path: str = "./models/deepseek-r1-distill-qwen-1.5b") -> DeepSeekModel: """获取模型单例""" global _model_instance if _model_instance is None: _model_instance = DeepSeekModel(model_path) return _model_instance

这个封装有几个设计考虑：首先用单例模式确保整个服务只加载一次模型，节省内存；其次把设备检测、token处理、生成参数都封装好了，后面调用时不用重复写；最后还加了flash attention支持，如果环境支持会自动启用，提升速度。

3.2 FastAPI主服务实现

现在创建主服务文件main.py。这里我们用FastAPI的最佳实践，把路由、依赖、异常处理都组织得清清楚楚：

# main.py from fastapi import FastAPI, HTTPException, Depends, BackgroundTasks from fastapi.middleware.cors import CORSMiddleware from pydantic import BaseModel from typing import Optional, List, Dict, Any import time import logging from model_loader import get_model # 配置日志 logging.basicConfig( level=logging.INFO, format="%(asctime)s - %(name)s - %(levelname)s - %(message)s" ) logger = logging.getLogger(__name__) app = FastAPI( title="DeepSeek-R1-Distill API Service", description="基于FastAPI的DeepSeek-R1-Distill-Qwen-1.5B模型API服务", version="1.0.0" ) # 允许跨域（开发时需要，生产环境请限制来源） app.add_middleware( CORSMiddleware, allow_origins=["*"], allow_credentials=True, allow_methods=["*"], allow_headers=["*"], ) # 请求数据模型 class GenerateRequest(BaseModel): prompt: str max_length: int = 512 temperature: float = 0.7 top_p: float = 0.9 repetition_penalty: float = 1.1 # 响应数据模型 class GenerateResponse(BaseModel): success: bool message: str result: str elapsed_time: float model_info: Dict[str, Any] @app.get("/") async def root(): return { "message": "DeepSeek-R1-Distill API Service is running", "model": "DeepSeek-R1-Distill-Qwen-1.5B", "status": "healthy" } @app.post("/v1/generate", response_model=GenerateResponse) async def generate_text( request: GenerateRequest, background_tasks: BackgroundTasks ): """生成文本的主API端点""" start_time = time.time() try: # 获取模型实例 model = get_model() # 记录请求信息（可选，用于调试） logger.info(f"Received request for prompt: {request.prompt[:50]}...") # 执行生成 result = model.generate_text( prompt=request.prompt, max_length=request.max_length, temperature=request.temperature, top_p=request.top_p, repetition_penalty=request.repetition_penalty ) elapsed_time = time.time() - start_time # 构建响应 response = { "success": True, "message": "Generation completed successfully", "result": result, "elapsed_time": round(elapsed_time, 2), "model_info": { "name": "DeepSeek-R1-Distill-Qwen-1.5B", "parameters": "1.5B", "device": "cuda" if model.device == "cuda" else "cpu" } } logger.info(f"Generated {len(result)} characters in {elapsed_time:.2f}s") return response except Exception as e: elapsed_time = time.time() - start_time error_msg = f"Generation failed: {str(e)}" logger.error(error_msg) raise HTTPException( status_code=500, detail={ "success": False, "message": error_msg, "result": "", "elapsed_time": round(elapsed_time, 2), "model_info": {"name": "DeepSeek-R1-Distill-Qwen-1.5B"} } ) @app.get("/health") async def health_check(): """健康检查端点""" try: model = get_model() # 简单测试模型是否可用 test_output = model.generate_text("Hello", max_length=10) return {"status": "healthy", "model_ready": True} except Exception as e: return {"status": "unhealthy", "error": str(e)}

这个实现有几个亮点：首先用Pydantic模型定义了清晰的请求/响应结构，前端调用时不会迷茫；其次异常处理很完善，任何错误都会返回结构化的JSON；最后健康检查端点让运维监控变得简单。

3.3 启动服务与初步测试

保存上面两个文件后，在项目根目录执行：

# 启动服务（开发模式） uvicorn main:app --host 0.0.0.0 --port 8000 --reload # 或者生产模式（不带--reload） uvicorn main:app --host 0.0.0.0 --port 8000 --workers 2

服务启动后，打开浏览器访问http://localhost:8000/docs，你会看到自动生成的交互式API文档。这就是FastAPI的杀手锏——不用写一行文档代码，所有端点、参数、示例都自动生成。

用文档页面的"Try it out"功能测试一下：

{ "prompt": "请用三句话介绍人工智能的发展历程", "max_length": 200, "temperature": 0.8 }

第一次请求会稍慢（因为要加载模型到GPU），后续请求就会很快。我的测试环境平均响应时间在1.5-2.5秒之间，对于15亿参数的模型来说，这个速度相当不错。

4. 进阶功能实现：让API更实用、更健壮

4.1 流式响应支持

很多场景下，用户不想等全部文本生成完才看到结果，比如聊天界面。FastAPI原生支持流式响应，我们来添加这个功能：

在main.py中添加新的端点：

from fastapi.responses import StreamingResponse import asyncio @app.post("/v1/generate/stream") async def stream_generate_text(request: GenerateRequest): """流式生成文本端点""" model = get_model() async def generate_stream(): # 模拟流式生成过程 full_prompt = request.prompt current_text = "" # 这里简化处理，实际中可以修改generate_text方法支持流式 # 或者用transformers的streamer功能 try: # 为演示，我们分段返回（实际项目中应使用真正的流式生成） result = model.generate_text( prompt=full_prompt, max_length=request.max_length, temperature=request.temperature, top_p=request.top_p, repetition_penalty=request.repetition_penalty ) # 分段发送 words = result.split() for i, word in enumerate(words): current_text += word + " " if i % 5 == 0 or i == len(words) - 1: # 每5个词发送一次 yield f"data: {current_text.strip()}\n\n" await asyncio.sleep(0.05) # 模拟网络延迟 except Exception as e: yield f"data: ERROR: {str(e)}\n\n" return StreamingResponse( generate_stream(), media_type="text/event-stream", headers={ "Cache-Control": "no-cache", "Connection": "keep-alive", } )

前端JavaScript调用示例：

const eventSource = new EventSource("http://localhost:8000/v1/generate/stream"); eventSource.onmessage = (event) => { const content = event.data; document.getElementById("output").textContent = content; }; eventSource.onerror = (error) => { console.error("Stream error:", error); };

4.2 请求队列与限流

当多个请求同时到达时，GPU可能成为瓶颈。我们添加一个简单的请求队列机制：

# 在main.py顶部添加 import asyncio from collections import deque # 全局请求队列 _request_queue = asyncio.Queue(maxsize=10) # 最多等待10个请求 _semaphore = asyncio.Semaphore(1) # 同时只处理1个请求 @app.post("/v1/generate/queued", response_model=GenerateResponse) async def generate_queued(request: GenerateRequest): """带队列的生成端点""" start_time = time.time() try: # 尝试加入队列，超时10秒 await asyncio.wait_for(_request_queue.put(request), timeout=10.0) # 获取信号量，确保串行处理 await _semaphore.acquire() try: model = get_model() result = model.generate_text( prompt=request.prompt, max_length=request.max_length, temperature=request.temperature, top_p=request.top_p, repetition_penalty=request.repetition_penalty ) elapsed_time = time.time() - start_time return { "success": True, "message": "Generation completed", "result": result, "elapsed_time": round(elapsed_time, 2), "model_info": {"name": "DeepSeek-R1-Distill-Qwen-1.5B"} } finally: _semaphore.release() except asyncio.TimeoutError: raise HTTPException( status_code=429, detail={"message": "Request queue is full, please try again later"} ) except Exception as e: raise HTTPException( status_code=500, detail={"message": f"Processing error: {str(e)}"} )

4.3 批量处理支持

有时候需要一次性处理多个提示，比如批量生成文案。添加批量端点：

class BatchGenerateRequest(BaseModel): prompts: List[str] max_length: int = 512 temperature: float = 0.7 class BatchGenerateResponse(BaseModel): success: bool results: List[Dict[str, Any]] total_time: float @app.post("/v1/generate/batch", response_model=BatchGenerateResponse) async def batch_generate(request: BatchGenerateRequest): """批量生成文本""" start_time = time.time() try: model = get_model() results = [] for i, prompt in enumerate(request.prompts): result = model.generate_text( prompt=prompt, max_length=request.max_length, temperature=request.temperature, top_p=0.9, repetition_penalty=1.1 ) results.append({ "index": i, "prompt": prompt[:50] + "..." if len(prompt) > 50 else prompt, "result": result, "length": len(result) }) total_time = time.time() - start_time return { "success": True, "results": results, "total_time": round(total_time, 2) } except Exception as e: raise HTTPException( status_code=500, detail={"message": f"Batch processing failed: {str(e)}"} )

5. 部署与优化：从开发到生产环境的平滑过渡

5.1 Docker化部署

为了让服务更容易部署和迁移，我们制作Docker镜像。创建Dockerfile：

# Dockerfile FROM nvidia/cuda:12.1.1-devel-ubuntu22.04 # 设置环境 ENV DEBIAN_FRONTEND=noninteractive ENV PYTHONDONTWRITEBYTECODE=1 ENV PYTHONUNBUFFERED=1 # 安装系统依赖 RUN apt-get update && apt-get install -y \ python3.10 \ python3.10-venv \ python3.10-dev \ curl \ git \ && rm -rf /var/lib/apt/lists/* # 创建工作目录 WORKDIR /app # 复制依赖文件 COPY requirements.txt . RUN pip3.10 install --upgrade pip RUN pip3.10 install -r requirements.txt # 复制应用代码 COPY . . # 创建模型目录（如果需要预下载模型） RUN mkdir -p ./models/deepseek-r1-distill-qwen-1.5b # 暴露端口 EXPOSE 8000 # 启动命令 CMD ["uvicorn", "main:app", "--host", "0.0.0.0:8000", "--port", "8000", "--workers", "2"]

对应的requirements.txt：

torch==2.3.0+cu121 transformers==4.41.2 accelerate==0.30.1 sentencepiece==0.2.0 fastapi==0.111.0 uvicorn==0.29.0 pydantic==2.7.4 tiktoken==0.7.0

构建和运行：

# 构建镜像 docker build -t deepseek-api . # 运行容器（挂载模型目录） docker run -d \ --gpus all \ -p 8000:8000 \ -v $(pwd)/models:/app/models \ --name deepseek-api \ deepseek-api

5.2 性能调优技巧

在实际使用中，我发现几个显著提升性能的技巧：

显存优化：如果遇到OOM错误，可以在模型加载时添加量化：

# 在model_loader.py中修改模型加载部分 self.model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.float16, device_map="auto", load_in_4bit=True, # 4位量化 bnb_4bit_compute_dtype=torch.float16, trust_remote_code=True )

CPU回退策略：当没有GPU时，自动降级到CPU模式：

# 在model_loader.py中 self.device = "cuda" if torch.cuda.is_available() else "cpu" print(f"Using device: {self.device}") # 加载时根据设备调整 if self.device == "cuda": self.model = self.model.half().cuda() else: self.model = self.model.float()

缓存机制：对于重复请求，添加简单缓存：

from functools import lru_cache @lru_cache(maxsize=128) def cached_generate(prompt: str, max_length: int) -> str: model = get_model() return model.generate_text(prompt, max_length=max_length)

5.3 监控与日志

添加基本的监控端点，方便集成Prometheus：

from fastapi import Request @app.middleware("http") async def log_requests(request: Request, call_next): """请求日志中间件""" start_time = time.time() response = await call_next(request) process_time = time.time() - start_time # 记录到日志 logger.info( f"{request.method} {request.url.path} " f"{response.status_code} {process_time:.2f}s" ) # 添加响应头 response.headers["X-Process-Time"] = str(round(process_time, 3)) return response # 简单的指标端点 @app.get("/metrics") async def metrics(): return { "uptime_seconds": int(time.time() - start_time), "requests_total": 123, # 实际项目中用全局计数器 "gpu_memory_used_gb": 12.4 # 实际项目中用nvidia-ml-py3获取 }

6. 实际应用场景与效果验证

6.1 内容创作辅助

这是我最常使用的场景。比如需要为新产品写社交媒体文案，传统方式要反复修改，现在用API几秒钟就能生成多个版本：

curl -X POST "http://localhost:8000/v1/generate" \ -H "Content-Type: application/json" \ -d '{ "prompt": "为一款智能咖啡机写三条微博文案，每条不超过100字，风格轻松有趣", "max_length": 300 }'

生成效果出乎意料地好。不是那种模板化的"智能咖啡机，一键开启美好一天"，而是有具体场景："早上被闹钟吵醒？不如让咖啡香先叫醒你——XX智能咖啡机，预约冲泡，开门就是醇香。"这种细节让文案立刻有了温度。

6.2 技术文档生成

作为工程师，我经常需要把会议纪要转成正式文档。以前要花半小时整理，现在：

curl -X POST "http://localhost:8000/v1/generate" \ -H "Content-Type: application/json" \ -d '{ "prompt": "将以下会议要点整理成技术文档：1. 用户登录流程需要增加短信验证 2. 订单状态查询接口响应时间要控制在200ms内 3. 数据库读写分离方案下周评审", "max_length": 500 }'

生成的文档结构清晰，有背景、目标、实施方案、时间节点，甚至自动加了"风险评估"小节。虽然还需要人工润色，但已经完成了80%的工作量。