文章目录
- Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection
- 一、研究背景:跨模态融合的核心挑战
- 二、MCMF框架:三分支架构与核心模块
- 1. 框架总览
- 2. 核心创新:位置敏感掩码自编码器(LMAE)
- (1)LMAE结构
- (2)自监督学习机制
- 3. 联合优化目标
- 三、实验验证:性能与消融分析
- 1. 与SOTA方法对比(表1)
- 表1 DroneVehicle数据集上的SOTA对比
- 2. 消融实验:LMAE的有效性(表2)
- 表2 LMAE消融实验结果
- 3. LMAE卷积层数影响(表3)
- 表3 LMAE卷积层数消融实验
- 4. 可视化结果
- (1)检测效果对比
- (2)特征可视化
- 四、核心创新点总结
- 五、未来展望
Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection
论文地址:https://ieeexplore.ieee.org/abstract/document/10971225/
会议:IEEE Signal Processing Letters(SPL)
年份:2025
一、研究背景:跨模态融合的核心挑战
无人机车载检测需应对复杂场景(如逆光、雨雪、夜间),但现有方法存在两大关键问题:
- 单模态局限性:可见光模态依赖光照,低光环境下漏检率高;红外模态虽能定位目标,却因缺乏色彩与纹理信息易产生误检。
- 融合效率低:传统跨模态融合多停留在像素级或简单特征拼接,忽略了模态间的“互补-冗余”关系,未能有效提取跨模态引导信息。
为解决上述问题,论文基于DroneVehicle数据集(包含28,439对可见光-红外图像、953,087个标注边界框),提出MCMF框架,通过“掩码引导+自监督学习”实现高效跨模态融合。
二、MCMF框架:三分支架构与核心模块
MCMF的核心设计是三分支网络结构,分别处理可见光模态(B r g b B_{rgb}Brgb)、红外模态(B i n B_{in}Bin)与融合模态(B f B_fBf),整体流程如图1所示。
1. 框架总览
- 输入层:成对的可见光图像I r g b I_{rgb}Irgb与红外图像I i n I_{in}Iin。
- 特征提取:采用ResNet-50作为 backbone,分别输出两种模态的基础特征f r g b = G r g b ( I r g b ) f_{rgb}=G_{rgb}(I_{rgb})frgb=Grgb(Irgb)与f i n = G i n ( I i n ) f_{in}=G_{in}(I_{in})fin=Gin(Iin),以及中间层特征f r g b ′ f_{rgb}'frgb′与f i n ′ f_{in}'fin′。
- 检测头:每个分支配备基于Transformer的检测头(H r g b H_{rgb}Hrgb、H i n H_{in}Hin、H f H_fHf),可生成带旋转角度的定向边界框(格式:x , y , h , w , θ , c x,y,h,w,\theta,cx,y,h,w,θ,c,其中θ \thetaθ为旋转角,c cc为类别)。
- 融合模块:通过LMAE(位置敏感掩码自编码器)处理中间层特征,生成融合特征f m f_mfm,最终经跨模态NMS输出最终检测结果Y c m Y_{cm}Ycm。
2. 核心创新:位置敏感掩码自编码器(LMAE)
LMAE是MCMF的关键模块,其核心思想是用一种模态的检测结果引导另一种模态的特征学习,实现“互补信息保留+冗余信息剔除”。以B r g b B_{rgb}Brgb分支的LMAE为例,流程如图2所示:
(1)LMAE结构
- 掩码生成:基于红外分支的检测结果Y i n Y_{in}Yin,生成掩码M r g b = { b b o x i n 1 , . . . , b b o x i n N } M_{rgb}=\{bbox_{in}^1,...,bbox_{in}^N\}Mrgb={bboxin1,...,bboxinN},其中边界框区域像素设为1,背景设为0。
- 特征掩码:将可见光中间特征f r g b ′ f_{rgb}'frgb′与M r g b M_{rgb}Mrgb进行元素级乘积,得到掩码特征f r g b ′ ‾ \overline{f_{rgb}'}frgb′(仅保留红外模态检测到的目标区域)。
- 编码器-解码器重建:
- 编码器通过3层卷积提取关键特征,公式如下:
L a y e r 1 = C o n v 1 e ( f r g b ′ ‾ ) Layer _{1}=Conv_{1}^{e}\left(\overline{f_{r g b}'}\right)Layer1=Conv1e(frgb′)
L a y e r 2 = C o n v 2 e ( C o n c a t ( L a y e r 1 , f r g b ′ ‾ ) ) Layer _{2}=Conv_{2}^{e}\left( Concat \left( Layer _{1}, \overline{f_{r g b}'}\right) \right)Layer2=Conv2e(Concat(Layer1,frgb′))
f ^ r g b ′ = C o n v 3 e ( C o n c a t ( L a y e r 1 , L a y e r 2 , f r g b ′ ‾ ) ) ( 1 ) \hat{f}_{r g b}'=Conv_{3}^{e}\left( Concat \left( Layer _{1}, Layer _{2}, \overline{f_{r g b}'}\right) \right) \quad (1)f^rgb′=Conv3e(Concat(Layer1,Layer2,frgb′))(1)
其中,C o n v j e ( ⋅ ) Conv_j^e(\cdot)Convje(⋅)表示编码器第j jj层卷积(64个3×3滤波器),C o n c a t ( ⋅ ) Concat(\cdot)Concat(⋅)为通道级拼接。 - 解码器通过3层卷积将f ^ r g b ′ \hat{f}_{rgb}'f^rgb′重建为可见光图像I ^ r g b \hat{I}_{rgb}I^rgb,公式如下:
I ^ r g b = C o n v 3 d ( C o n v 2 d ( C o n v 1 d ( f ^ r g b ′ ) ) ) ( 2 ) \hat{I}_{r g b}=Conv_{3}^{d}\left(Conv_{2}^{d}\left(Conv_{1}^{d}\left(\hat{f}_{r g b}'\right)\right)\right) \quad (2)I^rgb=Conv3d(Conv2d(Conv1d(f^rgb′)))(2)
其中,C o n v j d ( ⋅ ) Conv_j^d(\cdot)Convjd(⋅)表示解码器第j jj层卷积。
- 编码器通过3层卷积提取关键特征,公式如下:
(2)自监督学习机制
通过最小化重建误差(L m a e L_{mae}Lmae),迫使LMAE学习“红外目标区域”对应的可见光特征,既保留红外模态的定位优势,又补充可见光的纹理细节,实现跨模态引导。
3. 联合优化目标
MCMF的损失函数包含检测损失与LMAE正则化损失,整体目标是最小化:
L a l l = λ 1 L r g b + λ 2 L i n + λ 3 L f u s i o n + β L m a e ( 6 ) \mathcal{L}_{all }=\lambda_{1} \mathcal{L}_{rgb }+\lambda_{2} \mathcal{L}_{in }+\lambda_{3} \mathcal{L}_{fusion }+\beta \mathcal{L}_{mae } \quad (6)Lall=λ1Lrgb+λ2Lin+λ3Lfusion+βLmae(6)
其中,λ 1 , λ 2 , λ 3 , β \lambda_1,\lambda_2,\lambda_3,\betaλ1,λ2,λ3,β为平衡系数(论文中均设为1),各损失项定义如下:
(1)检测损失(L r g b \mathcal{L}_{rgb}Lrgb、L i n \mathcal{L}_{in}Lin、L f u s i o n \mathcal{L}_{fusion}Lfusion)
检测损失包含分类损失(L c l s L_{cls}Lcls)与回归损失(L l o c L_{loc}Lloc),以L r g b \mathcal{L}_{rgb}Lrgb为例:
L r g b ( c , u , t c , v , w r ) = L c l s ( c , u ) + [ c ≥ 1 ] L l o c ( t c , v , w r ) ( 3 ) \mathcal{L}_{r g b}\left(c, u, t^{c}, v, w_{r}\right)=\mathcal{L}_{c l s}(c, u)+[c \geq 1] \mathcal{L}_{l o c}\left(t^{c}, v, w_{r}\right) \quad (3)Lrgb(c,u,tc,v,wr)=Lcls(c,u)+[c≥1]Lloc(tc,v,wr)(3)
- c cc:预测类别概率,u uu:真实类别标签,L c l s L_{cls}Lcls采用交叉熵损失。
- t c = { x c , y c , h c , w c , θ c } t^c=\{x^c,y^c,h^c,w^c,\theta^c\}tc={xc,yc,hc,wc,θc}:预测边界框,v vv:真实边界框,[ c ≥ 1 ] [c\geq1][c≥1]为指示函数(目标存在时为1)。
- 回归损失L l o c L_{loc}Lloc引入不确定性权重w r w_rwr(补偿可见光模态的低光缺陷):
L l o c ( t c , v , w r ) = w r ∑ i ∈ { x , y , h , w , θ } s m o o t h L 1 ( t i c − v i ) ( 4 ) \mathcal{L}_{loc }\left(t^{c}, v, w_{r}\right)=w_{r} \sum_{i \in \{x,y,h,w,\theta\}} smooth_{L 1}\left(t_{i}^{c}-v_{i}\right) \quad (4)Lloc(tc,v,wr)=wri∈{x,y,h,w,θ}∑smoothL1(tic−vi)(4)
w r w_rwr的取值规则:- 可见光边界框缺失时,w r = 0.1 w_r=0.1wr=0.1;
- 边界框错位时,w r = T 1 × T 2 w_r=T_1×T_2wr=T1×T2(T 1 T_1T1为可见光平均亮度,T 2 T_2T2为模态间IoU);
- 边界框对齐时,w r = T 1 w_r=T_1wr=T1。
(2)LMAE正则化损失(L m a e \mathcal{L}_{mae}Lmae)
通过重建误差引导跨模态特征对齐:
L m a e ( I ^ r g b , I r g b , I ^ i n , I i n ) = ∥ I r g b − I ^ r g b ∥ 2 + ∥ I i n − I ^ i n ∥ 2 \mathcal{L}_{mae }\left(\hat{I}_{r g b}, I_{r g b}, \hat{I}_{i n}, I_{i n}\right)=\left\| I_{r g b}-\hat{I}_{r g b}\right\| _{2}+\left\| I_{i n}-\hat{I}_{i n}\right\| _{2}Lmae(I^rgb,Irgb,I^in,Iin)=Irgb−I^rgb2+Iin−I^in2
三、实验验证:性能与消融分析
论文在DroneVehicle数据集上进行了全面实验,验证了MCMF的有效性,核心结果如下:
1. 与SOTA方法对比(表1)
表1展示了MCMF与单模态、跨模态SOTA方法的mAP(平均精度均值)对比,其中MCMF*表示融合了[26]的neck层设计。
表1 DroneVehicle数据集上的SOTA对比
关键结论:
- MCMF基础版mAP达71.4%,较基线方法UA-CMDet [12]提升7.4%,较单模态最优AO2-DETR [31]提升5.6%;
- MCMF*(融合neck层)mAP进一步提升至74.7%,刷新跨模态检测SOTA。
2. 消融实验:LMAE的有效性(表2)
表2验证了LMAE在单模态与跨模态场景下的贡献,以可见光模态(V)、红外模态(I)及跨模态(V+I)为基线,对比“仅拼接(CMC)”与“LMAE引导”的性能差异。
表2 LMAE消融实验结果
关键结论:LMAE引导的融合方式显著优于传统拼接(CMC),单模态场景提升3.8%-9.3%,跨模态场景提升7.4%,证明其在跨模态信息蒸馏中的核心作用。
3. LMAE卷积层数影响(表3)
表3分析了LMAE编码器/解码器卷积层数(J JJ)对性能、参数量与速度的影响:
表3 LMAE卷积层数消融实验
关键结论:
- J = 2 J=2J=2时已能实现7.38%的mAP提升,且参数量仅增加1.51M;
- 随着J JJ增大,mAP提升趋缓(J = 3 J=3J=3较J = 2 J=2J=2仅提升0.04%),但推理时间增加,因此论文选择J = 3 J=3J=3作为平衡方案。
4. 可视化结果
(1)检测效果对比
- MCMF有效解决了UA-CMDet的漏检(如低光区域车辆)与误检(如背景误判为车辆)问题,检测结果更稳定。
(2)特征可视化
- 融合特征(最右侧)更聚焦于车辆区域,有效抑制背景噪声,证明LMAE能引导特征关注跨模态一致的目标区域。
四、核心创新点总结
- 三分支融合架构:首次将可见光、红外、融合模态设计为独立分支,既保留单模态优势,又通过跨模态NMS实现结果互补。
- LMAE掩码引导机制:通过“一种模态掩码→另一种模态特征学习→图像重建”的自监督范式,实现跨模态信息的精准蒸馏,剔除冗余、保留互补。
- 不确定性加权检测损失:针对可见光模态的低光缺陷,引入亮度与IoU联合加权的回归损失,提升复杂环境下的检测鲁棒性。
五、未来展望
论文指出,未来将进一步拓展LMAE的应用场景,如多模态信号处理(如雷达-视觉融合)、跨模态分割等任务,为更广泛的智能感知问题提供解决方案。
MCMF的提出,不仅为无人机跨模态车辆检测提供了新范式,也为“模态引导特征学习”提供了新思路,其核心设计对多模态智能感知领域具有重要参考价值。