PETRV2-BEV训练效果展示：nuscenes v1.0-mini实测mAP 0.267高清可视化-编程阁

PETRV2-BEV训练效果展示：nuscenes v1.0-mini实测mAP 0.267高清可视化

今天想和大家分享一个非常有意思的实践——在星图AI算力平台上训练PETRV2-BEV模型，并在nuscenes v1.0-mini数据集上跑出了mAP 0.267的成绩。整个过程不仅验证了模型的性能，还通过高清可视化直观地看到了BEV（鸟瞰图）感知的效果，感觉就像给自动驾驶系统装上了一双“上帝之眼”。

如果你对3D目标检测、BEV感知或者自动驾驶视觉模型感兴趣，这篇内容应该能给你带来不少实操的启发。我会把从环境准备、训练调优到效果可视化的完整流程都梳理出来，特别是那些踩过的“坑”和值得注意的细节。

1. 项目背景与目标

这次实践的核心目标是复现并验证PETRV2模型在经典自动驾驶数据集上的性能。PETRV2是PETR系列模型的升级版，它在3D目标检测领域，尤其是在基于多视角图像的BEV感知任务中，表现相当出色。

为什么选择nuscenes v1.0-mini？因为它虽然是完整nuscenes数据集的子集，但包含了足够多样的场景和标注，非常适合快速实验和验证流程。我们的目标很明确：跑通训练流程，得到可量化的精度指标（mAP, NDS等），并最终能可视化模型的感知结果，看看它“眼”中的世界是什么样的。

整个项目是在星图AI算力平台上完成的，它的环境预置和资源调度让整个过程省心不少。

2. 环境搭建与数据准备

工欲善其事，必先利其器。第一步就是把环境和数据搞定。

2.1 进入预置环境

星图平台已经为我们准备好了名为paddle3d_env的Conda环境，里面预装了Paddle3D等必要的依赖。只需要一行命令激活它：

conda activate paddle3d_env

激活后，命令行提示符通常会变化，表明你已经进入了该环境，可以开始后续操作了。

2.2 下载模型权重与数据集

接下来需要下载两样关键东西：预训练模型权重和数据集。

1. 下载预训练权重我们从一个公开的模型仓库下载PETRV2的预训练权重，作为我们训练的起点。这通常能加速模型收敛。

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

2. 下载nuscenes v1.0-mini数据集然后下载我们本次实验的核心数据集。

# 下载数据集压缩包 wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz # 创建数据集目录并解压 mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

解压完成后，/root/workspace/nuscenes目录下就会有v1.0-mini等文件夹，里面包含了图像、点云（虽然本次用不到）、标注文件等所有数据。

3. 训练与评估实战

环境数据就绪，真正的实战开始了。这一步我们将在mini数据集上训练并评估模型。

3.1 准备数据集信息文件

PETR系列模型需要特定的数据标注信息文件。Paddle3D提供了便捷的脚本生成它。

cd /usr/local/Paddle3D # 清理可能存在的旧信息文件（如果之前运行过） rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f # 生成针对mini_val模式的数据信息文件 python3 tools/create_petr_nus_infos.py \ --dataset_root /root/workspace/nuscenes/ \ --save_dir /root/workspace/nuscenes/ \ --mode mini_val

运行这个脚本后，它会在数据集目录下生成petr_nuscenes_annotation_train.pkl和petr_nuscenes_annotation_val.pkl等文件，里面包含了模型训练所需的数据路径和标注索引。

3.2 测试初始精度（验证流程）

在开始训练之前，我们先用在ImageNet等数据集上预训练过的权重，在nuscenes mini验证集上跑一下评估，看看模型的“起点”在哪里。这能帮助我们理解预训练权重的迁移效果。

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

执行后，我们得到了关键的评估输出：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s Per-class results: Object Class AP ATE ASE AOE AVE AAE car 0.446 0.626 0.168 1.735 0.000 1.000 truck 0.381 0.500 0.199 1.113 0.000 1.000 bus 0.407 0.659 0.064 2.719 0.000 1.000 trailer 0.000 1.000 1.000 1.000 1.000 1.000 construction_vehicle 0.000 1.000 1.000 1.000 1.000 1.000 pedestrian 0.378 0.737 0.263 1.259 0.000 1.000 motorcycle 0.356 0.748 0.314 1.410 0.000 1.000 bicycle 0.063 0.760 0.236 1.862 0.000 1.000 traffic_cone 0.637 0.418 0.377 nan nan nan barrier 0.000 1.000 1.000 1.000 nan nan

结果解读：

mAP (mean Average Precision): 0.2669。这是最核心的检测精度指标，数值越高越好。0.267的起点对于预训练权重来说是可以接受的，说明模型结构已经具备了一定的3D感知能力。
NDS (nuScenes Detection Score): 0.2878。这是nuscenes数据集特有的综合评分，综合考虑了mAP和其他五项误差指标（ATE, ASE, AOE, AVE, AAE），更能全面反映模型性能。
各类别AP：可以看到，car、truck、bus、pedestrian、motorcycle等常见类别已经有不错的检测精度（AP在0.35以上），而traffic_cone甚至达到了0.637。但trailer,construction_vehicle,barrier等类别的AP为0，bicycle也较低，这可能是由于这些类别在预训练数据或当前测试集中样本较少、特征难以学习导致的。
各项误差：mATE（平均平移误差）等指标也有具体数值，为后续优化提供了方向。

3.3 启动模型训练

现在，我们以这个预训练权重为起点，在nuscenes mini数据集上进行正式训练，目标是让模型更好地适应自动驾驶场景。

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

关键参数说明：

--epochs 100: 训练100个轮次。
--batch_size 2: 根据GPU显存情况设置，在星图平台上可以尝试调整以获得最佳利用率。
--learning_rate 1e-4: 学习率，这是一个常用的起点，如果训练过程中loss不下降或震荡，可能需要调整。
--do_eval: 开启在验证集上的定期评估，这样我们可以在训练过程中就看到模型精度的变化。
--save_interval 5和--log_interval 10: 分别控制模型保存和日志打印的频率。

训练开始后，终端会输出loss变化、学习率调整等信息。

3.4 可视化训练过程

枯燥的日志数字不够直观，我们可以用VisualDL来实时查看训练曲线，比如Loss下降趋势、mAP变化等。

1. 启动VisualDL服务

visualdl --logdir ./output/ --host 0.0.0.0

这条命令会在后台启动一个服务，将训练日志可视化。

2. 端口转发（在本地查看）由于训练通常在远程服务器进行，我们需要通过SSH隧道将服务器的端口映射到本地。

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

注意：这里的端口号（31264）、主机名和映射端口（8040->8888）需要根据你实际使用的星图平台实例信息进行修改。

3. 查看Loss曲线在本地浏览器访问http://localhost:8888，就能看到VisualDL的界面。在“SCALAR”标签页下，可以找到训练损失、验证损失、mAP等指标随训练步数/轮次变化的曲线图。通过观察这些曲线，我们可以判断模型是否在正常学习、有没有过拟合、是否需要调整学习率等。

3.5 导出推理模型并可视化结果

训练完成后，我们保存的模型是训练格式，需要导出为推理格式，以便部署和可视化。

1. 导出PaddleInference模型

# 清理并创建输出目录 rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model # 执行导出 python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出成功后，在nuscenes_release_model目录下会看到model.pdmodel、model.pdiparams等文件，这就是可以用于高效推理的模型文件。

2. 运行DEMO进行高清可视化最激动人心的部分来了——看看模型实际“看到”并预测出了什么。

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这个demo脚本会加载训练好的模型，对数据集中的样本进行推理，并生成可视化结果。

可视化效果解读：运行后，通常会生成一系列图像或启动一个可视化窗口。你会看到：

原始多视角图像：来自车辆周围多个摄像头的画面。
BEV视角下的预测结果：这是核心。在一个鸟瞰图坐标系中，模型预测出的3D边界框会被绘制出来，用不同颜色表示不同类别（如汽车、行人、自行车）。
可能还包括：将预测的3D框投影回原始图像视图的效果，让你直观感受检测框的准确性。

通过对比模型预测的BEV框和真实标注（如果可视化工具支持显示），你可以清晰地评估模型在距离估计、朝向判断、尺寸预测等方面的能力。例如，你可以检查远处的车辆是否被正确检测，行人的朝向是否准确，这对于自动驾驶的决策至关重要。

4. 扩展实验：在Xtreme1数据集上的尝试 [可选]

为了更全面地测试，我们也尝试在另一个数据集Xtreme1上运行了流程。这里简要记录，作为对比参考。

4.1 准备Xtreme1数据集信息

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

4.2 测试初始精度

使用同样的预训练权重进行评估：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/

输出显示mAP为0.0000，NDS很低。这强烈表明，预训练权重与Xtreme1数据集的域（domain）差异非常大，模型无法直接泛化，必须进行针对性的训练。

4.3 训练与导出

随后，我们在Xtreme1数据集上进行了训练，并同样导出了推理模型。这个过程与nuscenes类似，但需要更换对应的配置文件和数据路径。

5. 总结与效果分析

回顾整个实践，我们成功地在星图AI算力平台上完成了PETRV2-BEV模型在nuscenes v1.0-mini数据集上的训练、评估和可视化全流程。

核心成果与观察：

可复现的精度：获得了mAP 0.267的评估结果，与使用预训练权重的预期相符，验证了平台环境和代码流程的正确性。
完整的训练闭环：从数据准备、模型训练、过程监控到模型导出，形成了一个完整的工程化实践案例。
高清可视化价值：通过demo可视化，直观地感受到了BEV感知的魅力。模型能够从多个2D图像中构建出连贯的3D场景理解，预测出的物体位置、大小和朝向在BEV视图下清晰可见。这对于调试模型、理解其局限性和优势至关重要。
数据域的重要性：在Xtreme1数据集上的对比实验深刻说明，对于3D感知任务，模型的性能严重依赖于训练数据。直接迁移预训练模型可能失效，针对特定场景进行微调或重新训练往往是必要的。

给实践者的建议：