news 2026/4/16 14:19:51

论文阅读:Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection

文章目录

Mask-Guided Cross-Modality Fusion Network for Visible-Infrared Vehicle Detection

论文地址:https://ieeexplore.ieee.org/abstract/document/10971225/
会议:IEEE Signal Processing Letters(SPL)
年份:2025

一、研究背景:跨模态融合的核心挑战

无人机车载检测需应对复杂场景(如逆光、雨雪、夜间),但现有方法存在两大关键问题:

  1. 单模态局限性:可见光模态依赖光照,低光环境下漏检率高;红外模态虽能定位目标,却因缺乏色彩与纹理信息易产生误检。
  2. 融合效率低:传统跨模态融合多停留在像素级或简单特征拼接,忽略了模态间的“互补-冗余”关系,未能有效提取跨模态引导信息。

为解决上述问题,论文基于DroneVehicle数据集(包含28,439对可见光-红外图像、953,087个标注边界框),提出MCMF框架,通过“掩码引导+自监督学习”实现高效跨模态融合。

二、MCMF框架:三分支架构与核心模块

MCMF的核心设计是三分支网络结构,分别处理可见光模态(B r g b B_{rgb}Brgb)、红外模态(B i n B_{in}Bin)与融合模态(B f B_fBf),整体流程如图1所示。

1. 框架总览

  • 输入层:成对的可见光图像I r g b I_{rgb}Irgb与红外图像I i n I_{in}Iin
  • 特征提取:采用ResNet-50作为 backbone,分别输出两种模态的基础特征f r g b = G r g b ( I r g b ) f_{rgb}=G_{rgb}(I_{rgb})frgb=Grgb(Irgb)f i n = G i n ( I i n ) f_{in}=G_{in}(I_{in})fin=Gin(Iin),以及中间层特征f r g b ′ f_{rgb}'frgbf i n ′ f_{in}'fin
  • 检测头:每个分支配备基于Transformer的检测头(H r g b H_{rgb}HrgbH i n H_{in}HinH f H_fHf),可生成带旋转角度的定向边界框(格式:x , y , h , w , θ , c x,y,h,w,\theta,cx,y,h,w,θ,c,其中θ \thetaθ为旋转角,c cc为类别)。
  • 融合模块:通过LMAE(位置敏感掩码自编码器)处理中间层特征,生成融合特征f m f_mfm,最终经跨模态NMS输出最终检测结果Y c m Y_{cm}Ycm

2. 核心创新:位置敏感掩码自编码器(LMAE)

LMAE是MCMF的关键模块,其核心思想是用一种模态的检测结果引导另一种模态的特征学习,实现“互补信息保留+冗余信息剔除”。以B r g b B_{rgb}Brgb分支的LMAE为例,流程如图2所示:

(1)LMAE结构

  • 掩码生成:基于红外分支的检测结果Y i n Y_{in}Yin,生成掩码M r g b = { b b o x i n 1 , . . . , b b o x i n N } M_{rgb}=\{bbox_{in}^1,...,bbox_{in}^N\}Mrgb={bboxin1,...,bboxinN},其中边界框区域像素设为1,背景设为0。
  • 特征掩码:将可见光中间特征f r g b ′ f_{rgb}'frgbM r g b M_{rgb}Mrgb进行元素级乘积,得到掩码特征f r g b ′ ‾ \overline{f_{rgb}'}frgb(仅保留红外模态检测到的目标区域)。
  • 编码器-解码器重建
    • 编码器通过3层卷积提取关键特征,公式如下:
      L a y e r 1 = C o n v 1 e ( f r g b ′ ‾ ) Layer _{1}=Conv_{1}^{e}\left(\overline{f_{r g b}'}\right)Layer1=Conv1e(frgb)
      L a y e r 2 = C o n v 2 e ( C o n c a t ( L a y e r 1 , f r g b ′ ‾ ) ) Layer _{2}=Conv_{2}^{e}\left( Concat \left( Layer _{1}, \overline{f_{r g b}'}\right) \right)Layer2=Conv2e(Concat(Layer1,frgb))
      f ^ r g b ′ = C o n v 3 e ( C o n c a t ( L a y e r 1 , L a y e r 2 , f r g b ′ ‾ ) ) ( 1 ) \hat{f}_{r g b}'=Conv_{3}^{e}\left( Concat \left( Layer _{1}, Layer _{2}, \overline{f_{r g b}'}\right) \right) \quad (1)f^rgb=Conv3e(Concat(Layer1,Layer2,frgb))(1)
      其中,C o n v j e ( ⋅ ) Conv_j^e(\cdot)Convje()表示编码器第j jj层卷积(64个3×3滤波器),C o n c a t ( ⋅ ) Concat(\cdot)Concat()为通道级拼接。
    • 解码器通过3层卷积将f ^ r g b ′ \hat{f}_{rgb}'f^rgb重建为可见光图像I ^ r g b \hat{I}_{rgb}I^rgb,公式如下:
      I ^ r g b = C o n v 3 d ( C o n v 2 d ( C o n v 1 d ( f ^ r g b ′ ) ) ) ( 2 ) \hat{I}_{r g b}=Conv_{3}^{d}\left(Conv_{2}^{d}\left(Conv_{1}^{d}\left(\hat{f}_{r g b}'\right)\right)\right) \quad (2)I^rgb=Conv3d(Conv2d(Conv1d(f^rgb)))(2)
      其中,C o n v j d ( ⋅ ) Conv_j^d(\cdot)Convjd()表示解码器第j jj层卷积。
(2)自监督学习机制

通过最小化重建误差(L m a e L_{mae}Lmae),迫使LMAE学习“红外目标区域”对应的可见光特征,既保留红外模态的定位优势,又补充可见光的纹理细节,实现跨模态引导。

3. 联合优化目标

MCMF的损失函数包含检测损失LMAE正则化损失,整体目标是最小化:
L a l l = λ 1 L r g b + λ 2 L i n + λ 3 L f u s i o n + β L m a e ( 6 ) \mathcal{L}_{all }=\lambda_{1} \mathcal{L}_{rgb }+\lambda_{2} \mathcal{L}_{in }+\lambda_{3} \mathcal{L}_{fusion }+\beta \mathcal{L}_{mae } \quad (6)Lall=λ1Lrgb+λ2Lin+λ3Lfusion+βLmae(6)
其中,λ 1 , λ 2 , λ 3 , β \lambda_1,\lambda_2,\lambda_3,\betaλ1,λ2,λ3,β为平衡系数(论文中均设为1),各损失项定义如下:

(1)检测损失(L r g b \mathcal{L}_{rgb}LrgbL i n \mathcal{L}_{in}LinL f u s i o n \mathcal{L}_{fusion}Lfusion

检测损失包含分类损失(L c l s L_{cls}Lcls)与回归损失(L l o c L_{loc}Lloc),以L r g b \mathcal{L}_{rgb}Lrgb为例:
L r g b ( c , u , t c , v , w r ) = L c l s ( c , u ) + [ c ≥ 1 ] L l o c ( t c , v , w r ) ( 3 ) \mathcal{L}_{r g b}\left(c, u, t^{c}, v, w_{r}\right)=\mathcal{L}_{c l s}(c, u)+[c \geq 1] \mathcal{L}_{l o c}\left(t^{c}, v, w_{r}\right) \quad (3)Lrgb(c,u,tc,v,wr)=Lcls(c,u)+[c1]Lloc(tc,v,wr)(3)

  • c cc:预测类别概率,u uu:真实类别标签,L c l s L_{cls}Lcls采用交叉熵损失。
  • t c = { x c , y c , h c , w c , θ c } t^c=\{x^c,y^c,h^c,w^c,\theta^c\}tc={xc,yc,hc,wc,θc}:预测边界框,v vv:真实边界框,[ c ≥ 1 ] [c\geq1][c1]为指示函数(目标存在时为1)。
  • 回归损失L l o c L_{loc}Lloc引入不确定性权重w r w_rwr(补偿可见光模态的低光缺陷):
    L l o c ( t c , v , w r ) = w r ∑ i ∈ { x , y , h , w , θ } s m o o t h L 1 ( t i c − v i ) ( 4 ) \mathcal{L}_{loc }\left(t^{c}, v, w_{r}\right)=w_{r} \sum_{i \in \{x,y,h,w,\theta\}} smooth_{L 1}\left(t_{i}^{c}-v_{i}\right) \quad (4)Lloc(tc,v,wr)=wri{x,y,h,w,θ}smoothL1(ticvi)(4)
    w r w_rwr的取值规则:
    • 可见光边界框缺失时,w r = 0.1 w_r=0.1wr=0.1
    • 边界框错位时,w r = T 1 × T 2 w_r=T_1×T_2wr=T1×T2T 1 T_1T1为可见光平均亮度,T 2 T_2T2为模态间IoU);
    • 边界框对齐时,w r = T 1 w_r=T_1wr=T1
(2)LMAE正则化损失(L m a e \mathcal{L}_{mae}Lmae

通过重建误差引导跨模态特征对齐:
L m a e ( I ^ r g b , I r g b , I ^ i n , I i n ) = ∥ I r g b − I ^ r g b ∥ 2 + ∥ I i n − I ^ i n ∥ 2 \mathcal{L}_{mae }\left(\hat{I}_{r g b}, I_{r g b}, \hat{I}_{i n}, I_{i n}\right)=\left\| I_{r g b}-\hat{I}_{r g b}\right\| _{2}+\left\| I_{i n}-\hat{I}_{i n}\right\| _{2}Lmae(I^rgb,Irgb,I^in,Iin)=IrgbI^rgb2+IinI^in2

三、实验验证:性能与消融分析

论文在DroneVehicle数据集上进行了全面实验,验证了MCMF的有效性,核心结果如下:

1. 与SOTA方法对比(表1)

表1展示了MCMF与单模态、跨模态SOTA方法的mAP(平均精度均值)对比,其中MCMF*表示融合了[26]的neck层设计。

表1 DroneVehicle数据集上的SOTA对比

关键结论

  • MCMF基础版mAP达71.4%,较基线方法UA-CMDet [12]提升7.4%,较单模态最优AO2-DETR [31]提升5.6%;
  • MCMF*(融合neck层)mAP进一步提升至74.7%,刷新跨模态检测SOTA。

2. 消融实验:LMAE的有效性(表2)

表2验证了LMAE在单模态与跨模态场景下的贡献,以可见光模态(V)、红外模态(I)及跨模态(V+I)为基线,对比“仅拼接(CMC)”与“LMAE引导”的性能差异。

表2 LMAE消融实验结果

关键结论:LMAE引导的融合方式显著优于传统拼接(CMC),单模态场景提升3.8%-9.3%,跨模态场景提升7.4%,证明其在跨模态信息蒸馏中的核心作用。

3. LMAE卷积层数影响(表3)

表3分析了LMAE编码器/解码器卷积层数(J JJ)对性能、参数量与速度的影响:

表3 LMAE卷积层数消融实验

关键结论

  • J = 2 J=2J=2时已能实现7.38%的mAP提升,且参数量仅增加1.51M;
  • 随着J JJ增大,mAP提升趋缓(J = 3 J=3J=3J = 2 J=2J=2仅提升0.04%),但推理时间增加,因此论文选择J = 3 J=3J=3作为平衡方案。

4. 可视化结果

(1)检测效果对比

  • MCMF有效解决了UA-CMDet的漏检(如低光区域车辆)与误检(如背景误判为车辆)问题,检测结果更稳定。
(2)特征可视化

  • 融合特征(最右侧)更聚焦于车辆区域,有效抑制背景噪声,证明LMAE能引导特征关注跨模态一致的目标区域。

四、核心创新点总结

  1. 三分支融合架构:首次将可见光、红外、融合模态设计为独立分支,既保留单模态优势,又通过跨模态NMS实现结果互补。
  2. LMAE掩码引导机制:通过“一种模态掩码→另一种模态特征学习→图像重建”的自监督范式,实现跨模态信息的精准蒸馏,剔除冗余、保留互补。
  3. 不确定性加权检测损失:针对可见光模态的低光缺陷,引入亮度与IoU联合加权的回归损失,提升复杂环境下的检测鲁棒性。

五、未来展望

论文指出,未来将进一步拓展LMAE的应用场景,如多模态信号处理(如雷达-视觉融合)、跨模态分割等任务,为更广泛的智能感知问题提供解决方案。

MCMF的提出,不仅为无人机跨模态车辆检测提供了新范式,也为“模态引导特征学习”提供了新思路,其核心设计对多模态智能感知领域具有重要参考价值。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 17:54:10

Extreme Programming

作者: 陈泓宇(FZU ID:832301210 MU ID:23126221) 张志凯(FZU ID:832301205 MU ID:23126469)Course for This AssignmentEE308FZTeam Name脱氧核苷酸Assignment Requireme…

作者头像 李华
网站建设 2026/4/13 13:55:59

售前报价Agent落地案例拆解:检索优先 vs 生成优先

"数据比算法更重要,业务比技术更重要。" 这句话我以前也常说,但真正理解还是最近几个月接触了很多中小企业的大模型应用项目之后。 今天来讲个很有代表性的售前报价 Agent 项目:一家年产值 2000 万的设备集成商,7000份…

作者头像 李华
网站建设 2026/4/14 9:24:11

联想Yoga是什么档次?一篇文章讲清其高端定位与智能查询新方式

当你想了解一款笔记本的定位时,联想乐享智能体可以像一位专业顾问,将复杂的参数对比转化为清晰易懂的档次分析。打开联想官网或相关电商平台,琳琅满目的笔记本电脑系列常常让人眼花缭乱。在众多系列中,联想Yoga以其独特的设计和卓…

作者头像 李华
网站建设 2026/4/15 14:45:57

“互联网+”智慧养老新模式:传统智慧与现代科技的深度融合

人口老龄化加速的今天,养老需求日益多元化,传统养老模式面临巨大挑战。中医药作为中华文明的瑰宝,其“治未病”“整体观”“辨证施治”等理念与智慧养老的核心需求高度契合。借助“互联网”技术,中医药正从“经验医学”走向“智慧…

作者头像 李华
网站建设 2026/4/15 14:06:33

SM7033PK_LED照明驱动芯片分析

SM7033PK 是 SOP8 封装小功率恒压控制芯片,核心优势在于 85Vac-265Vac 宽输入、3% 恒压精度、外围元件少、多重自恢复保护,适配 BUCK/FLYBACK/BUCK‑BOOST 拓扑,输出 3.3V‑18V、最大 150mA,主打低成本小功率恒压供电场景。以下是…

作者头像 李华
网站建设 2026/4/16 10:43:33

FTXUI动态布局构建:ResizableSplit组件深度解析

FTXUI动态布局构建:ResizableSplit组件深度解析 【免费下载链接】FTXUI :computer: C Functional Terminal User Interface. :heart: 项目地址: https://gitcode.com/gh_mirrors/ft/FTXUI 在现代化终端应用开发中,灵活可调的界面布局已成为提升用…

作者头像 李华