小目标检测在热红外域的挑战 _ - 无可见光条件下基于热特征的显著性建模 _ - - 夜间智能监控系统开发如何训练无人机视角行人

面向无人机视角行人 / 车辆检测与显著性分割的热红外数据集

数据由 DJI M600Pro 无人机搭载 FLIR Vue Pro 热像仪在白天与夜间采集，专门解决“无人机视角下缺乏行人和车辆热红外公开数据集”的问题，并提供目标检测和显著性检测所需的像素级标注。

数据属性描述
空间分辨率原始图像 640 × 512 像素（热红外）
图像数量 2,975 幅热红外图像
目标类别行人（pedestrian）、车辆（vehicle）
实例数量 4,768 个行人目标 + 3,856 个车辆目标，共 8,624 个实例
图像格式原始为单通道长波热红外，经过温度映射转换为 3 通道伪彩 RGB
成像平台 DJI M600Pro 无人机 + FLIR Vue Pro 热像仪，低空航拍，白天与夜间场景
标注形式 1）行人 / 车辆的边界框（用于目标检测）；2）显著性检测用的像素级显著区域掩膜（saliency ground truth）
场景类型面向环境监测、应急管理、交通监测等 UAV 应用场景的真实户外环境（道路、监控区域等）
采集时间包含昼夜两种光照条件（仅热红外，无可见光配对）
使用任务 UAV 视角下的小目标行人 / 车辆检测、显著性检测（salient object detection）、显著图与热红外融合增强、复杂场景下的注意力机制研究等

1

热红外无人机数据集的核心属性与应用场景：

📊面向无人机视角行人/车辆检测与显著性分割的热红外数据集（UAV-Thermal-SOD）

属性类别	详细描述
数据集名称	UAV-Thermal-SOD（可自定义命名）
采集平台	DJI M600Pro 无人机 + FLIR Vue Pro 热像仪
成像模态	长波热红外（LWIR），单通道原始数据 → 温度映射为 3 通道伪彩色 RGB 图像
图像分辨率	640 × 512 像素
图像总数	2,975 幅热红外图像
目标类别	- 行人（Pedestrian） - 车辆（Vehicle）
实例数量	- 行人：4,768 个 - 车辆：3,856 个总计：8,624 个标注实例
标注类型	1.边界框标注（Bounding Boxes）：用于目标检测任务 2.像素级显著掩膜（Saliency Ground Truth）：用于显著性物体检测（Salient Object Detection）
光照条件	包含白天与夜间场景（仅热红外成像，无可见光配对图像）
飞行高度与视角	低空航拍（典型 UAV 视角），俯视/斜视角度，目标多为小尺度
场景类型	真实户外环境： - 城市道路 - 应急监控区域 - 交通路口 - 开阔野外区域适用于环境监测、公共安全、应急响应等 UAV 应用
主要应用任务	- 无人机视角下小目标行人/车辆检测 -热红外显著性检测（SOD） - 显著图引导的目标增强与定位 - 复杂背景下的注意力机制建模 - 热红外图像语义理解与场景感知
数据特点	- 解决“UAV 热红外公开数据集稀缺”问题 - 同时支持检测 + 分割双任务 - 包含昼夜鲁棒性验证场景 - 目标尺度小、背景复杂、热对比度变化大
数据格式	- 图像：PNG / JPG（伪彩 RGB） - 检测标注：YOLO 格式`.txt`或 COCO JSON - 显著性标注：二值掩膜 PNG（0/255）

✅该数据集填补了当前公开领域在“无人机热红外 + 显著性标注”方向的空白，特别适合研究：
小目标检测在热红外域的挑战
无可见光条件下基于热特征的显著性建模
多任务联合学习（检测 + saliency）
夜间智能监控系统开发

基于YOLOv8进行目标检测任务的详细训练代码示例，适用于您提供的无人机视角行人/车辆热红外数据集。如何使用Ultralytics的YOLOv8模型来训练您的数据集，并为显著性分割任务提供基本框架。

1. 数据集准备

首先确保您的数据集按照YOLO格式组织好。每张图片需要有一个对应的.txt文件，该文件包含边界框信息。同时，为显著性分割任务准备像素级标注（即掩膜图像）。

2. 模型训练脚本 (`train.py`)

# train.pyfromultralyticsimportYOLOimportosdefmain():# 创建保存训练结果的目录os.makedirs("runs",exist_ok=True)# 加载预训练的YOLOv8模型model=YOLO('yolov8s.pt')# 可以根据需求选择不同的YOLOv8版本# 开始训练results=model.train(data='config.yaml',# 使用您的配置文件epochs=100,# 根据需要调整epoch数量imgsz=640,# 图像尺寸batch=16,# 批次大小name='uav_thermal_sod',# 实验名称project='runs',# 保存结果的项目目录optimizer='AdamW',lr0=0.001,lrf=0.01,patience=20,save=True,device=0,# 使用GPU编号，-1表示使用CPUworkers=4,cache=False,hsv_h=0.015,hsv_s=0.7,hsv_v=0.4,degrees=10,translate=0.1,scale=0.5,flipud=0.0,fliplr=0.5,mosaic=1.0,mixup=0.1,)print("✅ 训练完成！最佳模型路径：",results.save_dir/"weights/best.pt")if__name__=='__main__':main()

3. 配置文件 (`config.yaml`)

在您的config.yaml中定义数据集的位置、类别等信息：

# config.yamltrain:./datasets/images/trainval:./datasets/images/valnc:2# 类别数量（行人和车辆）names:['pedestrian','vehicle']

4. 显著性分割模型训练（附加）

对于显著性分割任务，可以考虑使用U²-Net等模型。以下是一个简单的训练流程示例：

安装依赖

pipinstalltorch torchvision numpy opencv-python

U²-Net训练脚本

假设您已经安装了必要的依赖库并下载了U²-Net模型，您可以使用如下脚本来训练显著性分割模型：

# u2net_train.pyimporttorchimporttorch.nnasnnimporttorchvision.transformsastransformsfromtorch.utils.dataimportDataLoaderfromdatasetimportSODDataset# 自定义的数据集类frommodels.u2netimportU2NET# 假设您已经有了U2NET模型deftrain_u2net():model=U2NET(3,1)# 输入通道数为3（RGB），输出通道数为1（二值图）model.train()criterion=nn.BCEWithLogitsLoss()optimizer=torch.optim.Adam(model.parameters(),lr=0.001)transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize(mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225]),])train_dataset=SODDataset(root='./datasets',split='train',transform=transform)train_loader=DataLoader(train_dataset,batch_size=8,shuffle=True,num_workers=4)forepochinrange(100):# 训练周期数fori,(inputs,targets)inenumerate(train_loader):inputs=inputs.cuda()targets=targets.cuda()outputs=model(inputs)loss=criterion(outputs,targets)optimizer.zero_grad()loss.backward()optimizer.step()if(i+1)%10==0:print(f'Epoch [{epoch+1}/100], Step [{i+1}/{len(train_loader)}], Loss:{loss.item():.4f}')if__name__=="__main__":train_u2net()