校园监控实战包：YOLOv5实现摔倒、奔跑、人群聚集等异常行为检测（含训练/推理/部署全链路代码）-编程阁

本文还有配套的精品资源，点击获取

简介：直接上手就能跑的校园场景异常行为识别项目，基于YOLOv5框架，覆盖摔倒、奔跑、人群聚集三类高频安全风险动作。提供完整开发闭环：从XML标注转YOLO格式（xml2txt.py）、图像增强策略（augmentations.py）、模型训练（train.py）、精度验证（val.py）、视频/图片实时检测（detect.py），到ONNX与TensorRT模型导出（export.py）。内置Dockerfile和setup.cfg，一键构建隔离运行环境；tutorial.ipynb带注释分步实操指南；改进算法整体框架.png清晰呈现模块分工；手册.docx详述环境配置步骤、数据准备规范、关键参数含义及典型报错解决方案。所有脚本适配CUDA 11.x + PyTorch 1.10+，支持单卡/多卡训练，可快速替换自定义类别或调整网络深度以适配边缘设备。适合高校课程设计、毕业设计落地，也适用于中小规模安防系统轻量级部署验证。

1. 项目概述：为什么校园场景的异常行为检测不能只靠“调个YOLOv5”就完事？

你是不是也见过这类标题：“YOLOv5摔倒检测，5分钟上手！”——点进去一看，一张单人站立图被标成“摔倒”，训练10轮mAP 0.89，再一跑真实监控视频，连学生课间快走都报“奔跑”，走廊拐角三个人并排走直接触发“人群聚集”，后台告警邮件刷屏。这不是模型不行，是根本没搞清校园监控这个场景到底在考什么。

我带过6届本科生毕设、帮3所中学落地过安防辅助系统，踩过的坑比代码还多。校园不是实验室：光照随楼层和时间剧烈变化（北向教室下午全阴影，南向走廊正午反光刺眼）；摄像头普遍是200万~400万像素的广角固定枪机，人物在画面中平均只有40×60像素；学生穿校服颜色高度统一（蓝白/红白），动作幅度小但节奏快（突然蹲下系鞋带 vs 真实摔倒）；更关键的是——异常行为本质是“相对正常”的偏离，不是独立目标类别。YOLOv5原生做的是“检测框+类别”，但“摔倒”需要判断人体姿态是否失衡，“奔跑”依赖连续帧运动矢量，“人群聚集”得算局部密度而非单纯人数。硬套通用目标检测，等于让一个只会认字的人去读《红楼梦》——字都对，意思全错。

所以这个“校园监控实战包”，核心不是又一个YOLOv5复刻，而是把行为语义嵌进检测流水线里：用xml2txt.py不只是格式转换，它同步生成人体关键点伪标签；augmentations.py里的Mosaic增强特意保留肢体比例畸变，逼模型学姿态不变性；train.py里loss加了姿态一致性约束项；detect.py推理时不是单帧输出bbox，而是维护一个15帧滑动窗口，跑轻量级光流+轨迹聚类——这些细节，才是实测能跑通的关键。它不承诺“开箱即用”，但保证你改一行参数就能理解背后逻辑，换一个摄像头角度就知道要重调哪部分数据增强。适合两类人：一类是课程设计卡在“怎么让模型不把蹲着捡笔当摔倒”的同学；另一类是想用轻量方案验证安防逻辑、又不想被TensorRT编译错误折磨三天的工程师。下面所有内容，都来自我在某重点中学部署时的真实日志和调试记录。

2. 整体设计与思路拆解：为什么放弃“端到端行为识别”，选择“检测+行为建模”双阶段？

2.1 校园场景的三大硬约束，决定了架构必须妥协

很多同学第一反应是上SlowFast或I3D这类视频行为识别模型。我试过——在RTX 3060上跑1080P视频，单帧延迟1.2秒，完全无法实时。校园监控的真实约束有三条，任何方案都绕不开：

硬件成本墙：学校采购的NVR设备GPU通常是T4或A2，显存≤16GB，且需同时处理8路1080P流。端到端3D CNN显存占用超32GB，直接不可行。
标注成本墙：标注一段30秒视频的行为，需逐帧标出“奔跑起始帧”“摔倒触地帧”“聚集形成时刻”，专业标注员耗时≈视频时长×5倍。我们实测过，100段视频标注成本超2万元，远超学校预算。
误报容忍墙：安防系统允许漏报（如漏检一次奔跑），但绝不允许高频误报（每天50次假聚集告警，值班老师会直接关系统）。纯深度学习模型在光照突变时误报率超40%，而规则引擎可控制在5%以内。

所以最终采用“YOLOv5检测为基座 + 轻量行为建模层”双阶段架构。这不是技术退化，而是工程理性选择：YOLOv5负责解决“哪里有人”，行为建模层解决“人在干什么”。好处是模块解耦——检测模型可单独优化精度，行为逻辑可独立调试规则，后期替换为YOLOv8或PP-YOLOE也只需改接口。

提示：框架图中的“改进算法整体框架.png”里，灰色虚线框内就是行为建模层。它包含三个并行子模块：姿态分析器（基于检测框宽高比+中心点偏移计算倾角）、运动分析器（用LK光流法跟踪连续5帧人体中心点位移向量）、密度分析器（以检测框中心为圆心，半径r=2×平均框宽，统计邻域内框数）。这三个模块输出都是0~1的置信度，最后用加权融合（姿态0.4 + 运动0.4 + 密度0.2）得到最终异常分。权重不是拍脑袋定的，是我们在实验楼走廊采集7天数据后，用网格搜索在验证集上扫出来的最优值。

2.2 类别定义的陷阱：为什么“摔倒”不能只标一个bbox？

原始YOLOv5的类别是静态的：“person”、“car”、“dog”。但校园异常行为中，“摔倒”不是新物体，而是“person”的一种状态。如果强行新增“fallen_person”类别，会带来两个致命问题：

数据分布撕裂：同一人摔倒前后，标注框尺寸、长宽比、位置差异极大（站立时框高≈3倍宽，摔倒时宽≈高），模型学到的不是“摔倒特征”，而是“框形态特征”，导致泛化极差；
小样本灾难：全校一年可能就发生几次真实摔倒，标注数据<50张，而YOLOv5基础检测需要数千张person图才能收敛。

我们的解法是保持单类别“person”，用检测框属性+时序上下文推断状态。具体操作：
- 在xml2txt.py中，当标注文件含<pose>fallen</pose>标签时，不生成新类别，而是将该框的center_x, center_y坐标偏移量（相对于站立时平均中心）写入额外字段；
- augmentations.py中加入“姿态扰动增强”：随机缩放框高宽比（0.7~1.3倍），模拟不同摔倒角度，但强制保持框面积不变（避免模型学尺寸而非姿态）；
- train.py里修改loss：除常规CIoU loss外，增加一项pose_consistency_loss = MSE(预测倾角, 标注倾角)，倾角由(box_h - box_w) / (box_h + box_w)计算，范围[-1,1]。

这样做的效果是：模型依然只学“找人”，但通过框的几何属性隐式编码姿态信息。实测在未标注姿态的测试集上，“摔倒”召回率从32%提升至79%，且无需新增标注成本。

2.3 部署链路的取舍：为什么坚持支持TensorRT，而不是只做ONNX？

很多开源项目导出ONNX就收工，但ONNX在边缘设备上常有兼容问题。比如某中学用的海康威视DS-2CD3T47G2-LU摄像头内置NPU，只支持TensorRT 8.2的特定OP子集。我们export.py里做了三件事：

OP兼容性兜底：导出前自动检查模型中是否含torch.nn.functional.interpolate（TensorRT 8.2不支持），若有则替换为双线性插值CUDA kernel；
动态shape适配：校园监控视频分辨率不统一（有720P也有1080P），TensorRT需预设输入尺寸。我们在export.py中启用--dynamic-batch和--dynamic-input，生成支持[1,3,640,640]到[4,3,1080,1920]的engine；
量化感知训练：在train.py中集成QAT（Quantization-Aware Training），用fake quant module模拟INT8精度损失，使导出的TensorRT engine在INT8模式下mAP仅降1.2%，而推理速度提升3.8倍。

这解释了为什么Dockerfile里指定tensorrt==8.2.5.1而非最新版——不是守旧，是经过23次编译失败后，确认这是海康/大华主流NVR固件支持最稳定的版本。

3. 核心细节解析与实操要点：从数据准备到模型导出的避坑指南

3.1 数据预处理：xml2txt.py里藏着的三个关键改造

原始YOLOv5的xml2txt.py只做坐标转换，但校园数据有特殊性：标注工具（如LabelImg）导出的XML中，<bndbox>坐标是像素值，而监控视频存在镜头畸变，直接转换会导致框偏移。我们做了三项改造：

畸变校正预处理：在xml2txt.py开头加入cv2.undistort()调用，需提前用OpenCV标定该校摄像头的内参矩阵（fx,fy,cx,cy）和畸变系数（k1,k2,p1,p2,k3）。标定方法手册.docx第3章有详细步骤，核心是打印棋盘格A4纸贴在走廊墙面，用手机拍15张不同角度照片，运行calibrate_camera.py（项目未提供，但手册附了代码链接）；
姿态标签提取：当XML含<attribute name="pose">fallen</attribute>时，不忽略该属性，而是计算倾角θ = arctan((y2-y1)/(x2-x1))，存入txt文件末尾作为第5列（原格式：class x_center y_center width height [theta]）；
小目标过滤：校园监控中，远处学生框常<20×20像素，YOLOv5默认anchor尺寸（32,64,128）难以匹配。xml2txt.py中增加min_area=400参数，自动过滤面积<400像素的框，并记录到filtered_log.txt供人工复核。

注意：手册.docx第5页强调，绝对不要跳过畸变校正。我们在实验楼东侧走廊测试时，未校正的模型对摔倒检测mAP仅51%，校正后达83%。因为未校正时，地面投影变形导致摔倒者头部坐标偏移达15像素，YOLOv5的anchor机制直接失效。

3.2 增强策略：augmentations.py中针对校园场景的定制化增强

通用图像增强（旋转、裁剪、色彩抖动）对校园监控效果有限。我们重写了augmentations.py，聚焦三个校园特有问题：

光照突变模拟：校园走廊常有窗户，阳光直射导致局部过曝。新增RandomSunlight增强：在图像随机位置生成椭圆形高亮区域（亮度+120），叠加高斯模糊（σ=5），模拟阳光斑。实测使模型在正午强光下误报率下降37%；
运动模糊注入：奔跑检测需识别动态模糊特征。新增MotionBlur增强：沿随机方向（0°~360°）施加长度为3~7像素的线性模糊，仅作用于标注框内部区域（避免背景干扰）；
遮挡鲁棒性增强：教室门口常有门框遮挡。新增RandomDoorOcclusion：在框顶部/底部/左侧/右侧，按20%概率添加矩形遮挡（灰度值128，宽高比1:3），模拟门框投影。

所有增强均通过p=0.5控制启用概率，且在datasets.py中确保训练集和验证集使用相同随机种子，避免数据泄露。特别提醒：data_augment_test.py是专门写的可视化脚本，运行它可生成10张增强前后对比图，务必先看效果再训练——曾有同学开启MotionBlur但未限制作用区域，导致整张图模糊，训练3天才发现。

3.3 模型训练：train.py中影响收敛的关键参数调整

YOLOv5官方配置（如yolov5s.yaml）针对COCO数据集优化，直接用于校园场景会收敛慢、易过拟合。我们修改了以下参数：

参数	官方值	校园实战值	原因
`lr0`（初始学习率）	0.01	0.005	校园数据量小（通常<2000图），大学习率易震荡
`lrf`（终学习率）	0.1	0.2	防止后期学习率过低，姿态一致性loss难优化
`warmup_epochs`	3	5	小数据集需更长热身期稳定梯度
`box`（定位loss权重）	0.05	0.15	校园框小且密集，定位精度比分类更重要
`cls`（分类loss权重）	0.5	0.1	单类别”person”，分类loss冗余

此外，在train.py中启用了--cache参数，将图像预处理结果缓存到RAM，使单卡训练吞吐量从23 img/s提升至38 img/s。但注意：--cache需至少32GB内存，否则会OOM。手册.docx第7章提供了内存不足时的替代方案——用--image-weights按图像复杂度动态采样，减少简单背景图的加载频次。

3.4 推理检测：detect.py如何实现“真·实时”而不丢帧？

detect.py不是简单调用model(img)，而是构建了三级缓冲队列：

采集层：用cv2.VideoCapture以CAP_PROP_FPS=25锁定帧率，但实际读取时加time.sleep(0.04)（25FPS对应40ms），避免CPU空转耗电；
预处理层：图像送入YOLOv5前，先做cv2.resize到640×640，但不使用默认的INTER_LINEAR，而是INTER_AREA（下采样专用），减少运动模糊引入；
推理层：启用--half（FP16）和--dnn（OpenCV DNN后端），在RTX 3060上单帧推理耗时从28ms降至11ms。

最关键的是帧同步机制：当推理耗时>40ms（即掉帧），detect.py不会丢弃当前帧，而是将下一帧的timestamp与上一帧比较，若差值>50ms，则触发“追赶模式”——跳过预处理中的letterbox填充（直接resize），牺牲少量精度保帧率。这个逻辑在detect.py第217行if time_diff > 0.05: ...处实现，手册.docx第9章有完整流程图。

4. 实操过程与核心环节实现：从零开始跑通全流程的逐行解析

4.1 环境构建：Dockerfile里的CUDA版本玄机

Dockerfile表面看是标准写法：

FROM nvidia/cuda:11.3.1-cudnn8-runtime-ubuntu20.04 RUN apt-get update && apt-get install -y python3-pip COPY requirements.txt . RUN pip3 install -r requirements.txt

但隐藏两个关键点：

CUDA 11.3.1是刻意选择：不是最新版，因为PyTorch 1.10.2（项目指定）的预编译wheel仅支持CUDA 11.3。若用CUDA 11.7，pip install会自动降级PyTorch到1.12，导致torch_utils.py中fuse_conv_and_bn()函数报错（API变更）；
cudnn8-runtime而非cudnn8-devel：部署环境只需runtime，devel包含头文件和库，体积大且不安全。实测精简后镜像从3.2GB降至1.8GB，启动时间缩短60%。

构建命令必须加--gpus all：

docker build -t campus-yolo . docker run --gpus all -v $(pwd)/data:/workspace/data -it campus-yolo

若漏掉--gpus all，nvidia-smi在容器内不可见，后续所有GPU操作都会fallback到CPU，速度慢15倍。

4.2 数据准备：如何用最少标注成本覆盖三大异常？

手册.docx第4章给出了“最小可行标注集”方案：

摔倒：不标全过程，只标“触地瞬间”帧。采集10段真实摔倒视频（体育课跌倒、楼梯滑倒），每段截取触地前后3帧（共30帧），标注框需覆盖全身，重点保证脚部接触地面区域；
奔跑：不标奔跑本身，标“起跑姿态”和“冲刺姿态”。找田径队训练视频，截取起跑器蹬踏帧（身体前倾>45°）和终点线撞线帧（手臂大幅摆动），共50帧；
人群聚集：不标人数，标“密度阈值区域”。在走廊固定位置架设相机，用激光测距仪测出距离d，计算该距离下1人占据像素面积S。标注时，框选区域内所有person框，要求框数≥3且总面积≥3×S，共80帧。

总计160帧标注，3人团队2天可完成。我们用这套数据在某中学测试，摔倒召回率76%，奔跑82%，聚集89%，满足安防初筛需求。手册.docx附了标注规范PDF，含各场景的典型示例图。

4.3 模型训练：train.py执行命令与参数详解

进入容器后，标准训练命令：

python train.py --img 640 --batch 16 --epochs 100 --data data/campus.yaml --cfg models/yolov5s.yaml --weights '' --name yolov5s-campus --cache

逐参数解析：

--img 640：输入尺寸。校园监控常用640×640，平衡精度与速度。若用1280，mAP+1.2%但速度-60%，不推荐；
--batch 16：批量大小。单卡RTX 3060显存12GB，batch=16刚好占满，batch=32会OOM；
--epochs 100：训练轮数。实测50轮已收敛，100轮是为应对数据少时的微调冗余；
--data data/campus.yaml：数据配置文件，需按手册.docx第6章修改train:和val:路径；
--cfg models/yolov5s.yaml：模型结构。yolov5s足够，yolov5x在校园场景mAP仅+0.3%但速度-45%；
--weights ''：空字符串表示从头训练。若想迁移学习，填yolov5s.pt（需自行下载）；
--name yolov5s-campus：保存路径，结果在runs/train/yolov5s-campus/；
--cache：启用内存缓存，必加。

训练过程中，runs/train/yolov5s-campus/results.csv会实时记录指标。重点关注metrics/mAP_0.5（应>0.75）和train/box_loss（应<0.05）。若box_loss持续>0.1，大概率是数据预处理出错（如xml2txt.py未校正畸变）。

4.4 模型导出：export.py生成TensorRT engine的完整流程

导出分为两步：先转ONNX，再转TRT。

第一步：ONNX导出

python export.py --weights runs/train/yolov5s-campus/weights/best.pt --include onnx --imgsz 640 640

关键点：--imgsz 640 640必须指定，否则ONNX输入shape为动态，TRT无法编译。

第二步：TensorRT编译

trtexec --onnx=yolov5s-campus.onnx \ --saveEngine=yolov5s-campus.engine \ --fp16 \ --workspace=4096 \ --minShapes=input:1x3x640x640 \ --optShapes=input:4x3x640x640 \ --maxShapes=input:8x3x640x640 \ --shapes=input:4x3x640x640

参数说明：
---fp16：启用半精度，速度提升2.1倍；
---workspace=4096：分配4GB显存用于编译，小于4096会报错；
---min/opt/maxShapes：定义动态batch范围，对应1~8路视频流；
---shapes：指定优化形状，选4是因为常见部署为4路NVR。

编译成功后，yolov5s-campus.engine即可用于detect.py的TRT后端。手册.docx第10章提供了TRT推理的Python API封装代码，仅需3行即可加载。

5. 常见问题与排查技巧实录：那些让毕设答辩前夜崩溃的报错

5.1 典型问题速查表

报错现象	根本原因	解决方案	手册定位
`RuntimeError: CUDA out of memory`	batch size过大或cache占用过高	改`--batch 8`，删`--cache`，或加`--workers 0`	P12 §2.3
`AssertionError: Image Not Found`	`data/campus.yaml`中路径含中文或空格	用`realpath`检查路径，确保全英文无空格	P6 §1.1
`ImportError: No module named 'tensorrt'`	Docker内未安装tensorrt	进容器执行`apt-get install tensorrt`，非pip	P15 §4.2
`detect.py输出全是空列表`	模型权重路径错误或输入尺寸不匹配	检查`--weights`路径，确认`--imgsz`与训练时一致	P18 §5.1
`TensorRT engine加载失败`	CUDA版本与TRT不匹配	`nvidia-smi`查驱动，`trtexec --version`查TRT，手册P22有兼容表	P22 §6.4

5.2 独家避坑技巧：三个血泪教训

技巧1：验证数据预处理是否生效的“三秒法”
不要等训练完才发现数据错了。运行python xml2txt.py --input data/Annotations --output data/labels --img-path data/images后，立即执行：

head -n 1 data/labels/00001.txt

正确输出应为0 0.523 0.487 0.215 0.382（5列），若只有4列，说明姿态标签未提取；若数值>1，说明坐标未归一化。这个检查应在训练前强制执行。

技巧2：区分“模型不收敛”和“评估指标假高”
val.py默认用--task val，但校园场景需用--task test。因为val只测单帧，而test会跑完整视频序列，触发行为建模层。曾有同学val mAP 0.85，但test时聚集检测全失效——原因是val.py未加载behavior_analyzer.py模块。手册.docx第8章明确要求：测试行为检测必须用python val.py --task test。

技巧3：Docker部署时的时区陷阱
校园NVR系统日志用北京时间（UTC+8），但Docker默认UTC。若detect.py生成的告警文件名含时间戳，会出现8小时偏差。解决方案：构建镜像时加ENV TZ=Asia/Shanghai，并RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone。这个细节手册.docx第14章有完整Dockerfile补丁。

6. 扩展与优化：如何把这个项目变成你的毕设亮点？

这个实战包是起点，不是终点。根据我的指导经验，本科生最容易做出彩的三个扩展方向：

6.1 方向一：增加“危险区域闯入”检测（零代码改动）

校园有禁入区域（配电房、化学实验室），无需训练新模型。利用现有检测框，加规则引擎：
- 在detect.py中，预先定义危险区域多边形（如配电房门口坐标[[120,300],[200,300],[200,450],[120,450]]）；
- 每帧检测后，用cv2.pointPolygonTest()判断person框中心是否在区域内；
- 若连续3帧都在，触发告警。全程只需20行代码，却能让毕设报告多出“智能区域管控”章节。

6.2 方向二：用Grad-CAM可视化“模型为什么认为摔倒”

答辩时展示热力图，比说一百遍“模型准确率高”更有说服力。在plots.py中加入：

from pytorch_grad_cam import GradCAM cam = GradCAM(model=model, target_layers=[model.model[-2]], use_cuda=True) grayscale_cam = cam(input_tensor=img_tensor, targets=None) # 叠加热力图到原图

运行python plots.py --weights best.pt --source test_fall.jpg，输出热力图会高亮模型关注的腿部和躯干连接处——这证明模型真在学姿态，而非背诵背景纹理。

6.3 方向三：部署到Jetson Nano的终极轻量化

学校边缘设备常是Jetson Nano（4GB RAM）。此时需：
- 模型：换yolov5n.yaml（nano版），参数量减60%；
- 推理：用TensorRT 8.0（Nano仅支持），export.py中加--opset 11；
- 后处理：删--agnostic-nms（Nano NPU不支持），改用传统NMS；
- 功耗：sudo nvpmodel -m 2切换为2W模式，风扇噪音降低50%。

手册.docx附录B有Jetson Nano完整部署清单，含所有命令和配置文件。

最后分享一个小技巧：答辩前，用tutorial.ipynb里的%%time魔法命令，录下从git clone到detect.py输出第一帧结果的全过程视频（约3分27秒）。当评委问“这个能落地吗”，直接播放——比任何PPT都有力。毕竟，能跑通的代码，永远比完美的公式更接近工程的本质。

本文还有配套的精品资源，点击获取