用Deeplabv3跑Cityscapes语义分割：从训练到可视化测试的完整避坑指南-编程阁

用Deeplabv3实现Cityscapes语义分割：从数据预处理到效果优化的全流程实战

当我们需要让计算机理解街景图像中每个像素属于道路、车辆还是建筑物时，语义分割技术就派上了用场。Deeplabv3作为语义分割领域的经典模型，配合Cityscapes这类高质量的街景数据集，能够实现精准的像素级识别。本文将带你从零开始，避开那些容易让人卡壳的"坑"，完成从环境配置到效果可视化的完整流程。

1. 环境配置与数据准备

1.1 搭建PyTorch开发环境

建议使用Anaconda创建独立的Python环境，避免包版本冲突。对于PyTorch的安装，官方提供了清晰的安装命令：

conda create -n deeplab python=3.8 conda activate deeplab conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

注意：CUDA版本需要与显卡驱动匹配，可通过nvidia-smi命令查看支持的CUDA版本。

1.2 Cityscapes数据集获取与处理

Cityscapes数据集包含50个城市在不同条件下的街景图像，具有精细的像素级标注。数据集目录结构通常如下：

cityscapes/ ├── leftImg8bit/ │ ├── train/ │ ├── val/ │ └── test/ └── gtFine/ ├── train/ ├── val/ └── test/

数据预处理是确保训练成功的关键步骤。我们需要运行preprocess_data.py脚本生成标签图像，常见问题及解决方案：

路径错误：确保脚本中cityscapes_data_path指向数据集根目录
内存不足：可分批处理，修改脚本增加分块处理逻辑
标签映射错误：检查cityscapesscripts中的labels.py是否与预处理脚本一致

2. 模型训练的关键配置

2.1 代码结构调整

原始代码通常需要以下修改才能正常运行：

相对路径转绝对路径：

# 修改前 from model import deeplabv3 # 修改后 from deeplabv3.model import deeplabv3

PyTorch版本适配：

# 对于新版本PyTorch，需要修改resnet.py中的初始化方式 def __init__(self, block, layers, num_classes=1000): super(ResNet, self).__init__() # 新版本不再需要Variable封装 self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)

2.2 训练参数调优

下表展示了关键训练参数的建议配置：

参数	建议值	说明
batch_size	8-16	根据GPU内存调整
learning_rate	0.001-0.01	初始学习率
num_epochs	50+	语义分割需要较长时间训练
optimizer	SGD	配合momentum=0.9使用
lr_scheduler	StepLR	每20epoch衰减0.1倍

训练过程中需要监控的关键指标：

mIoU(mean Intersection over Union)：衡量分割精度的核心指标
训练损失曲线：观察是否收敛
显存占用：防止因OOM导致训练中断

# 典型训练循环结构 for epoch in range(num_epochs): model.train() for images, labels in train_loader: optimizer.zero_grad() outputs = model(images) loss = criterion(outputs, labels) loss.backward() optimizer.step() # 每个epoch验证一次 model.eval() with torch.no_grad(): val_loss, val_miou = evaluate(model, val_loader) print(f"Epoch {epoch}: Val mIoU={val_miou:.4f}")

3. 可视化测试与结果分析

3.1 测试脚本配置

run_on_seq.py是常用的可视化测试脚本，需要特别注意：

文件夹结构准备：

demoVideo/ ├── input/ # 存放测试图像序列 ├── output/ # 保存分割结果 └── overlay/ # 保存叠加效果

路径配置要点：

# 必须修改的关键路径参数 config = { 'model_path': 'training_logs/model_best.pth', 'input_dir': 'demoVideo/input', 'output_dir': 'demoVideo/output', 'palette': cityscapes_palette # 使用Cityscapes官方配色 }

3.2 结果解读与优化

测试结果通常呈现以下问题及改进方向：

边缘模糊：增大训练epoch或使用CRF后处理
小物体识别差：尝试使用HRNet等保留高分辨率特征的网络
类别混淆：检查数据平衡性，可能需要类别加权损失

效果对比示例：

原图	分割结果	问题分析
![原图]	![结果]	车辆边界不清晰
![原图]	![结果]	远处行人漏检

4. 高级优化技巧

4.1 数据增强策略

有效的增强组合能显著提升模型鲁棒性：

transform = A.Compose([ A.RandomResizedCrop(512, 512, scale=(0.5, 2.0)), A.HorizontalFlip(p=0.5), A.RandomBrightnessContrast(p=0.2), A.GaussNoise(var_limit=(10.0, 50.0), p=0.3), A.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)) ])

4.2 模型结构调整

针对Cityscapes的特点，可对Deeplabv3进行以下改进：

ASPP模块增强：

class ASPP(nn.Module): def __init__(self, in_channels, out_channels=256): super().__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, 1) self.conv2 = nn.Conv2d(in_channels, out_channels, 3, padding=6, dilation=6) # 增加更多膨胀率 self.conv3 = nn.Conv2d(in_channels, out_channels, 3, padding=12, dilation=12)

注意力机制引入：

class CBAM(nn.Module): def __init__(self, channels): super().__init__() self.channel_attention = nn.Sequential( nn.AdaptiveAvgPool2d(1), nn.Conv2d(channels, channels//8, 1), nn.ReLU(), nn.Conv2d(channels//8, channels, 1), nn.Sigmoid() )

4.3 混合精度训练

使用AMP加速训练并减少显存占用：

from torch.cuda.amp import autocast, GradScaler scaler = GradScaler() for inputs, labels in train_loader: optimizer.zero_grad() with autocast(): outputs = model(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

在实际项目中，我发现将学习率预热与余弦退火结合使用效果显著。最初1000次迭代线性增加学习率，之后采用余弦衰减，这样既保证了训练初期的稳定性，又能让模型在后期找到更优的解。另外，适当增大裁剪尺寸（从512×512到768×768）虽然会增加计算量，但对远处小物体的识别率有明显提升。