识别毕设：新手如何从零构建一个高准确率的图像分类系统-编程阁

识别毕设：新手如何从零构建一个高准确率的图像分类系统

摘要：许多本科生在毕业设计中首次接触AI项目，常因缺乏工程经验而在数据预处理、模型选型和部署环节踩坑。本文以“识别毕设”为场景，手把手指导新手基于 PyTorch 构建端到端的图像分类系统，涵盖数据增强策略、轻量级模型（如 MobileNetV3）选型、训练调参技巧及 Flask API 封装。读者将掌握可复现的开发流程，避免常见陷阱，快速交付一个准确率超 85%、可演示可部署的毕设项目。

一、背景痛点：为什么 70% 的图像分类毕设“看起来能跑，其实不能看”

数据泄露——训练集和测试集“沾亲带故”
最常见的是先整体做归一化、增强，再划分数据集，导致统计信息泄露；或者把同一患者的多张切片同时放进训练/测试，模型实际在“背答案”。
没有验证集，一路 train 到 99%，一测试 60%
老师问“你调过超参吗？”——学生答“看训练精度一直在涨就停了”。缺验证集意味着无法早停、无法调参，过拟合到姥姥家。
数据太少却硬上“大”模型
10 张猫、10 张狗直接上 ResNet-152，结果验证集震荡比股票还刺激。
路径硬编码、环境没隔离
“在我电脑能跑”系列：绝对路径、Windows 反斜杠、PyTorch 1.13 与 1.9 混用，最后答辩现场换电脑直接翻车。
不会写 API，模型永远躺在.pth里
老师一句“演示一下”，学生只能打开 Jupyter 手工model.load_state_dict，现场尴尬。

二、技术选型：ResNet vs EfficientNet vs MobileNet

模型	参数量	CPU 推理 224×224 (ms)	ImageNet Top-1	训练 4 类 5000 张/类 100epoch 最佳验证精度
ResNet-50	25.6 M	110 ms	76.1 %	91.2 %
EfficientNet-B0	5.3 M	85 ms	77.1 %	92.5 %
MobileNetV3-Large	5.4 M	45 ms	75.2 %	89.7 %

结论：
如果答辩机器是笔记本 CPU，MobileNetV3 能在 45 ms 以内完成单张推理，内存占用 < 120 MB，PPT 翻页不卡顿。
EfficientNet-B0 精度最高，但 CPU 推理慢 1.8×；ResNet-50 太重，不推荐毕设这种“轻演示”场景。
本文后续代码默认 MobileNetV3，留一个model_name参数，一行可切换。

三、核心实现：用 PyTorch Lightning + Albumentations 速通训练

3.1 项目骨架

mini_workshop/ ├─ data/ │ ├─ train/ │ ├─ val/ │ └─ test/ ├─ models/ ├─ lightning_logs/ ├─ app.py └─ train.py

3.2 数据增强：Albumentations 一行代码搞定

import albumentations as A from albumentations.pytorch import ToTensorV2 train_tf = A.Compose([ A.Resize(224, 224), A.HorizontalFlip(p=0.5), A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5), A.ShiftScaleRotate(shift_limit=0.1, scale_limit=0.2, rotate_limit=15, p=0.5), A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)), ToTensorV2() ])

关键点：
所有增强都在训练集上做，验证集只做 Resize+Normalize，防止信息泄露。
Albumentations 直接返回 Tensor，无需再经过 PIL，训练提速 15%。

3.3 Lightning Module：把模型、优化器、训练步写一起

import torch, torchmetrics, pytorch_lightning as pl from torchvision.models import mobilenet_v3_large class LitModule(pl.LightningModule): def __init__(self, lr=1e-3, num_classes=4): super().__init__() self.save_hyperparameters() self.net = mobilenet_v3_large(weights='IMAGENET1K_V1') self.net.classifier[3] = nn.Linear(self.net.classifier[3].in_features, num_classes) self.acc = torchmetrics.Accuracy(task='multiclass', num_classes=num_classes) def forward(self, x): return self.net(x) def training_step(self, batch, _): x, y = batch logits = self(x) loss = F.cross_entropy(logits, y) self.log('train_loss', loss) return loss def validation_step(self, batch, _): x, y = batch logits = self(x) loss = F.cross_entropy(logits, y) acc = self.acc(logits.softmax(dim=-1), y) self.log('val_loss', loss, prog_bar=True) self.log('val_acc', acc, prog_bar=True) def configure_optimizers(self): opt = torch.optim.AdamW(self.parameters(), lr=self.hparams.lr) sched = torch.optim.lr_scheduler.CosineAnnealingLR(opt, T_max=10) return [opt], [sched]

好处：
自动分布式、混合精度、早停、TensorBoard 一条龙，毕设写论文时直接截图 val_acc 曲线即可。

3.4 启动训练

python train.py --data_dir ./data --max_epochs 50 --batch_size 32 --gpus 1

训练 4 类花卉（各 1200 张）50 epoch 在 1650Ti 上 12 分钟跑完，val_acc 89.7%。

四、完整可运行代码示例

下面给出最小可运行片段，复制即可跑通。注意把路径换成自己的。

4.1 数据加载（含划分）

from torchvision.datasets import ImageFolder from torch.utils.data import DataLoader import os, shutil, random def split(data_root, ratio=(0.7,0.15,0.15)): for cls in os.listdir(data_root): os.makedirs(f'data/train/{cls}', exist_ok=True) os.makedirs(f'data/val/{cls}', exist_ok=True) os.makedirs(f'data/test/{cls}', exist_ok=True) imgs = os.listdir(f'{data_root}/{cls}') random.shuffle(imgs) a,b=int(len(imgs)*ratio[0]), int(len(imgs)*(ratio[0]+ratio[1])) for x in imgs[:a]: shutil.copy(x, f'data/train/{cls}') for x in imgs[a:b]: shutil.copy(x, f'data/val/{cls}') for x in imgs[b:]: shutil.copy(x, f'data/test/{cls}')

4.2 训练脚本 train.py

import argparse, pytorch_lightning as pl from lit_module import LitModule from dataset import FlowerDataModule def main(): parser = argparse.ArgumentParser() parser.add_argument('--data_dir', default='data') parser.add_argument('--batch_size', type=int, default=32) parser.add_argument('--max_epochs', type=int, default=50 inf) args = parser.parse_args() dm = FlowerDataModule(args.data_dir, batch_size=args.batch_size) model = LitModule(num_classes=dm.num_classes) trainer = pl.Trainer(max_epochs=args.max_epochs, accelerator='gpu' if torch.cuda.is_available() else 'cpu', precision=16) trainer.fit(model, dm) trainer.save_checkpoint("checkpoints/mobilenetv3_flowers.ckpt") if __name__ == '__main__': main()

4.3 Flask API 封装 app.py

from flask import Flask, request, jsonify import torch, torchvision.transforms as T from PIL import Image from lit_module import LitModule app = Flask(__name__) model = LitModule.load_from_checkpoint('checkpoints/mobilenetv3_flowers.ckpt') model.eval() tf = T.Compose([T.Resize(256), T.CenterCrop(224), T.ToTensor(), T.Normalize(mean=[0.485,0.456,0.406], std=[0.229,0.224,0.225])]) idx_to_name = {0:'daisy',1:'dandelion',2:'rose',3:'sunflower'} @app.route('/predict', methods=['POST']) def predict(): file = request.files['image'] img = Image.open(file).convert('RGB') x = tf(img).unsqueeze(0) with torch.no_grad(): out = model(x).softmax(1) prob, pred = out.topk(1) return jsonify({'class': idx_to_name[int(pred)], 'prob': float(prob)}) if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

启动服务后，用 Postman 或网页表单上传图片，返回 JSON，演示环节 10 秒搞定。

五、性能实测：在笔记本 CPU 上跑通 85%+ 准确率

测试机：i5-10210U，16 GB 内存，Win11，PyTorch 2.0 CPU -only。

指标	MobileNetV3	EfficientNet-B0
单张 224×224 推理延迟	42 ms	78 ms
峰值内存（并发 1）	115 MB	210 MB
并发 10 请求平均延迟	380 ms	720 ms
top-1 准确率（自采 4 类花卉）	89.7 %	92.5 %

结论：MobileNetV3 在 CPU 场景性价比最高，毕设答辩电脑无 GPU 也能流畅演示。

六、生产环境避坑指南

训练/测试分布一致
很多同学网上下两套图片，训练用高清图，测试用手机模糊图，精度直接掉 20 点。统一采集设备、统一分辨率，最好同一批次。
版本管理
- 用dvc或git-lfs跟踪数据版本；
- 用mlflow或wandb记录每次实验的 hyper、ckpt、指标；
- 给模型文件加哈希名，避免best.pth被覆盖。
拒绝硬编码
所有路径、超参读自yaml或环境变量；换电脑只需改配置，无需动代码。
早停 + ReduceLROnPlateau
毕设机器跑不动 200 epoch，设patience=7，精度不升就停，省时间又防过拟合。
模型加密
如果后续要嵌入 APP，记得转 ONNX + 加密，防止*.pth被直接拷贝。