应用统计学毕业设计实战：从数据建模到可部署分析系统的完整路径-编程阁

应用统计学毕业设计实战：从数据建模到可部署分析系统的完整路径

提示：本文面向已修完《回归分析》《机器学习基础》并会用 Python 写脚本的大四/研二同学，目标是让“跑通 Notebook”升级为“可复现、可上线、可答辩”的完整项目。

1. 典型痛点：为什么 90% 的统计毕设“跑完即弃”

复现困难：数据清洗脚本散落在多个Untitled.ipynb，路径写死、随机种子未固定，换电脑就跑不通。
零工程架构：模型训练与预测逻辑耦合，答辩现场改一行参数全屏爆红。
缺性能评估：只汇报 AUC=0.92，却忽略响应时间、内存占用、并发鲁棒性，评委一问“上线后多久会 OOM”就语塞。

结果：论文写得再漂亮，现场 demo 一挂，印象分直接打对折。

2. 技术选型：别在 Hello World 阶段就埋雷

| 维度 | Scikit-learn | Statsmodels | Flask | FastAPI | |---|---|---|---|---|---| | 定位 | 机器学习预测 | 统计推断+假设检验 | 轻量 Web 框架 | 异步 Web 框架 | | 优势 | 管道 API、交叉验证一体化 | P 值、置信区间、共线性诊断完整 | 生态老、教程多 | 自动生成 Swagger、异步并发高 | | 毕设场景 | 主模型（逻辑回归、GBDT） | 解释变量显著性、共线性表 | 快速出图、写报告 | 答辩现场并发演示更稳 |

结论：
统计报告里必须出现 P 值 → 用Statsmodels做解释性表格；
最终上线 API → 用FastAPI，异步+类型提示，写起来比 Flask 还短。

3. 项目全景：一条命令跑完“数据 → 模型 → 镜像 → HTTP 服务”

目录样板（可直接抄进 GitHub）：

├── data/ # 原始数据 ├── notebooks/ # 仅保留 EDA，后续脚本化后不再维护 ├── src/ │ ├── pipeline.py # 清洗→特征→训练管道 │ ├── model.py # 持久化与预测接口 │ └── api.py # FastAPI 入口 ├── tests/ # 单元+集成测试 ├── Dockerfile └── requirements.txt

4. 核心实现细节

4.1 数据预处理管道：让“换数据”不再重写代码

用sklearn.pipeline.Pipeline把ColumnTransformer+SimpleImputer+StandardScaler串起来，一步fit_transform。
类别变量 >10 类 → 用TargetEncoder折外编码，避免 One-Hot 爆炸。
管道对象训练完直接joblib.dump，预测阶段joblib.load即可，保证线上线下同分布。

4.2 模型训练脚本：Clean Code 示范

# src/train.py from pathlib import Path import typer import pandas as pd from sklearn.model_selection import TimeSeriesSplit from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_auc_score, log_loss import joblib def load_data(path: Path) -> pd.DataFrame: return pd.read_parquet(path) def build_pipeline() -> Pipeline: ... # 见 4.1 return pipe def evaluate(model, X, y) -> dict[str, float]: prob = model.predict_proba(X)[:, 1] return {"auc": roc_auc_score(y, prob), "logloss": log_loss(y, prob)} def main(data_path: Path, model_out: Path, C: float = 1.0): df = load_data(data_path) X, y = df.drop("label"), df["label"] pipe = build_pipeline( LogisticRegression(max_iter=1000, C=C, n_jobs=-1) ) scores = [] for train_idx, test_idx in TimeSeriesSplit(n_splits=5).split(X): pipe.fit(X.iloc[train_idx], y.iloc[train_idx]) scores.append(evaluate(pipe, X.iloc[test_idx], y.iloc[test_idx])) print(f"CV AUC: {sum(s['auc'] for s in scores)/5:.3f}") pipe.fit(X, y) joblib.dump(pipe, model_out) if __name__ == "__main__": typer.run(main)

亮点：
函数单一职责，方便单元测试；
typer自动生成 CLI，调参不用改代码；
时间序列交叉验证，避免数据泄漏。

4.3 RESTful API：三行代码暴露预测

# src/api.py from fastapi import FastAPI, HTTPException from pydantic import BaseModel, conlist import joblib, pandas as pd, numpy as np model = joblib.load("model.gz") # 训练阶段落盘 app = FastAPI(title="User-Churn-StatsAPI") class PredictRequest(BaseModel): features: conlist(float, min_items=23, max_items=23) example_id: str class PredictResponse(BaseModel): example_id: str prob_churn: float @app.post("/predict", response_model=PredictResponse) def predict(payload: PredictRequest): try: X = pd.DataFrame([payload.features], columns=model.feature_names_in_) prob = float(model.predict_proba(X)[0, 1]) except Exception as e: raise HTTPException(status_code=400, detail=str(e)) return PredictResponse(example_id=payload.example_id, prob_churn=prob)

说明：
pydantic自动做类型校验，传错字段直接 422；
返回字段锁定，前端同学无需猜键名；
异常捕获后返回 400，避免把 Python 调用栈直接抛给客户端。

5. 生产考量：让评委相信“这玩意儿真能上线”

冷启动延迟：模型文件 200 MB 时，FastAPI 同步加载会阻塞uvicorn主进程。改为lazy_load：
- 在startup事件里加载，启动完再接收流量；
- 或者把模型放Redis缓存，每次只取coef_，本地重建LogisticRegression对象，内存占用降到 30 MB。
并发压力：
- 单进程 1 核可扛 ~300 req/s（逻辑回归），演示时开 4 工作进程足够；
- 用locust打 1 min 压测，记录 P99 延迟 <150 ms，写进论文“性能评估”小节，答辩秒变亮点。
输入校验：
- 连续特征范围写死confloat(ge=0, le=1)，非法输入直接拒掉，避免模型外推；
- 分类特征用Literal["male","female"]，FastAPI 自动生成枚举文档，评委现场用 Postman 也玩不坏。

6. 毕设避坑指南

坑位	症状	解药
过拟合	训练 AUC 0.98，测试 0.72	嵌套交叉验证+正则化+特征数 < 样本数/10
解释性	评委问“系数正负矛盾”	用 Statsmodels 输出`summary()`，把 VIF<5 的表贴附录
演示宕机	现场切换投影分辨率，代码路径全乱	一切容器化：`docker build -t churn . && docker run -p 80:8000 churn`，断网也能跑
时间不够	还剩两周，前端没写	把 FastAPI 自带的 Swagger UI 当演示界面，省 3 天 React 工作量