论文题目:HAFNet: Hierarchical Attention Fusion Network for Infrared Small Target Detection(用于红外小目标检测的分层注意力融合网络)
期刊:IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
摘要:红外小目标检测(IRSTD)涉及识别空间范围小、信杂比低、经常嵌入动态和复杂背景中的目标,这使得任务特别具有挑战性。得益于强大的特征提取和多尺度特征融合特性,U-Net在IRSTD任务中表现良好。然而,现有的U-Net方法往往只关注优化骨干特征提取或跳过连接,这限制了它们在复杂场景下的性能,难以有效识别小目标。为了解决这一限制,我们提出了一种基于U-Net架构的分层注意力融合网络,即HAFNet。具体而言,设计了双分支语义感知模块(DSPM)作为特征提取主干,以增强上下文语义交互。该模块集成了使用标准卷积和扩展卷积的双分支特征提取,同时利用空间和通道注意模块(CAMs)有效地将小目标从背景噪声中分离出来。此外,我们通过合并层次特征融合编码器(HFFE)和层次特征融合解码器(HFFD)扩展了跳过连接。这些模块利用分层注意引导和编码特征注入跳过连接(esc)来实现编码器和解码器之间多尺度、多层次语义特征的有效融合。在三个公共数据集(NUAA-SIRST, IRSTD- 1k和NUDT-SIRST)上进行的大量实验表明,所提出的HAFNet优于现有的IRSTD方法,并实现了最先进的(SOTA)检测性能。
https://github.com/ Wangtao-Bao/HAFNet
HAFNet:面向红外小目标检测的层级注意力融合网络详解
一、背景与动机
红外小目标检测(Infrared Small Target Detection,IRSTD)是指在红外图像中准确识别并定位体积微小、对比度极低的目标,广泛应用于早期预警系统、海上搜救等军民两用领域。与可见光目标检测相比,IRSTD 面临三大核心挑战:
- 目标极小:目标仅占图像极少数像素,空间信息极为有限;
- 低信杂比:目标与背景的对比度极低,极易被噪声掩盖;
- 背景复杂:海面、云层、地形等复杂背景产生大量干扰,传统方法误报率高。
基于 U-Net 的方法凭借编解码器结构与跳跃连接,在 IRSTD 任务中取得了显著进展。然而,现有方法存在两个关键瓶颈,限制了进一步性能提升。
问题一:骨干网络与红外图像不匹配
现有大量方法(如 ACM 使用 ResNet-20、DNA-Net 使用 ResNet-18/34、MTU-Net 使用 ResNet-10/18/34)沿用为可见光图像分类设计的骨干网络作为特征提取模块。由于可见光与红外图像在光谱分布、数据特性上存在本质差异,这类骨干网络往往无法有效泛化到红外场景,导致特征表达能力不足,在复杂红外环境中鲁棒性下降。
问题二:传统跳跃连接存在语义鸿沟
标准 U-Net 的跳跃连接(CSC)仅在相同分辨率的编解码器层之间直接传递特征。这一策略忽视了低层特征(富含空间细节但对噪声敏感)与高层特征(语义抽象但缺乏细粒度结构信息)之间固有的语义差距,导致异质特征融合效果不佳,尤其难以在杂乱高纹理背景中精确重建小目标。
📌配图:此处配Fig. 1——展示 DNA-Net、SCTransNet、UIUNet 与 HAFNet 四种方法的跳跃连接结构对比示意图,直观呈现 HAFNet 引入的新型层级跳跃连接(HSC、ESC)与传统方案的区别。
二、HAFNet 整体架构
为解决上述问题,本文提出HAFNet(Hierarchical Attention Fusion Network),从特征提取骨干和跳跃连接机制两个维度对 U-Net 进行系统性改进。
整体架构采用五层编解码器结构,包含三个核心模块:
| 模块 | 作用 |
|---|---|
| DSPM(双分支语义感知模块) | 替代传统分类骨干,专为红外图像设计的特征提取模块 |
| HFFE(层级特征融合编码器) | 融合相邻编码器层特征,生成层级编码特征 |
| HFFD(层级特征融合解码器) | 融合多源特征,增强解码器重建能力 |
网络还设计了三类跳跃连接协同工作:
- CSC:传统同尺度跳跃连接(保留原始 U-Net 的局部细节传递)
- HSC:层级注意力引导跳跃连接(将 HFFE 特征传入解码器)
- ESC:编码特征注入跳跃连接
📌配图:此处配Fig. 2——HAFNet 完整架构示意图,展示五个编码阶段、HFFE/HFFD 模块位置、三类跳跃连接的流向,以及深度监督(DS)策略的部署位置。
各编码阶段输出特征图通道数为 C = [16, 32, 64, 128, 256],分辨率依次减半。最终各解码层特征经 1×1 卷积 + Sigmoid 生成分割图,并使用Soft-IoU Loss进行深度监督优化。
三、核心模块详解
3.1 双分支语义感知模块(DSPM)
传统单一尺度卷积感受野固定,难以同时捕获局部细节与全局上下文,无法有效区分红外小目标与复杂背景。DSPM 从多尺度特征提取和注意力精炼两个层面加以解决。
双分支特征提取:
- 第一分支:两层标准 3×3 卷积,保留局部空间一致性,提取低层基础特征;
- 第二分支:膨胀率分别为 4 和 2 的膨胀卷积,大幅扩展感受野,捕获跨尺度上下文信息。
- 两路特征拼接后经 1×1 卷积融合,形成多尺度特征
。
双重注意力精炼:
依次通过空间注意力模块(SAM)和通道注意力模块(CAM)(来自 CBAM)对融合特征进行精炼:SAM 聚焦目标所在的空间区域,CAM 强调目标相关的特征通道,共同抑制背景噪声、突出小目标响应。
📌配图:此处配Fig. 3——DSPM 详细结构图,展示双分支卷积路径(上路标准卷积、下路膨胀卷积)、特征拼接操作,以及右侧空间注意力模块(SAM)和通道注意力模块(CAM)的串联结构。
消融验证(Table V):移除标准卷积(w/o Conv)导致 NUAA-SIRST 上 IoU 下降5.99%,移除膨胀卷积(w/o D.Conv)下降2.38%,说明标准卷积对局部特征提取更为关键。移除 SAM 导致 IRSTD-1K 上 nIoU 下降 1.57%,移除 CAM 导致 NUDT-SIRST 上 nIoU 下降 0.83%。完整 DSPM 在三个数据集上均取得最佳 IoU/nIoU。
📌配图:此处配Table V——DSPM 内部组件消融实验结果表。
3.2 层级特征融合编码器(HFFE)
DSPM 扩大感受野的同时,也可能引入更多误报(伪目标),且单层特征缺乏跨层语义协同能力。HFFE 通过跨层注意力交互解决这一问题。
输入:相邻两层编码特征——低层(高分辨率、细节丰富)和高层
(低分辨率、语义丰富)。
处理流程:
分辨率对齐 + SAM 提炼:将
双线性上采样至
的分辨率,两路特征分别通过 SAM 提炼目标相关区域,得到
和
;
空间权重矩阵(SWM)生成:通过 1×1 卷积 + Sigmoid 分别生成两路空间权重矩阵,用对方的权重矩阵对自身特征进行重校准:
这一互相加权的设计使两层特征能够互相"关注"彼此的重要区域;
坐标注意力(CoordAtt)融合:将
和
拼接后送入 CoordAtt 模块,编码水平和垂直方向的位置依赖,生成融合坐标注意力权重
,保留对小目标定位至关重要的位置信息;
最终输出:
📌配图:此处配Fig. 4——HFFE 详细结构图,展示低层/高层特征的双路 SAM 处理、SWM 交叉乘积、CoordAtt 模块,以及最终特征拼接输出的完整流程。
消融验证(Table VI):移除 CoordAtt 导致 NUAA-SIRST 上 IoU 下降3.08%、nIoU 下降 2.07%,说明位置编码对挑战性场景至关重要。移除交叉乘积操作 $\otimes^1$(式13)或 $\otimes^2$(式14)均造成全数据集一致性下降,验证了跨层特征重校准机制的有效性。
📌配图:此处配Table VI——HFFE 内部组件消融实验结果表。
3.3 层级特征融合解码器(HFFD)
传统 U-Net 解码器仅依赖同尺度跳跃连接,难以同时捕获全局语义上下文与细粒度局部细节。HFFD 通过整合三路异质输入实现更全面的目标重建:
- 编码器特征 $F_{en}$:提供精细的局部细节,支持目标边界的精确重建;
- 层级编码特征 $F_{HFFE}$:聚合多尺度编码器表示,增强全局语义理解;
- 上采样解码器特征 $F_{de}$:来自上一解码层,为当前层提供空间上下文引导。
处理流程:
首先将与
拼接,通过 4 个 1×1 卷积进行特征分解(FD),得到四路特征图
;
随后以不同膨胀率进行多尺度渐进增强:
最终拼接多尺度特征并与求和,经 3×3 卷积与
整合,生成最终层级解码特征
:
📌配图建议:此处配Fig. 5——HFFD 详细结构图,展示三路输入融合、特征分解(FD)、三路膨胀卷积渐进增强、与
整合的完整计算流程。
消融验证(Table VII):移除层级语义信息 $F_{HFFE}$ 带来最大性能损失,NUAA-SIRST 上 IoU 下降3.28%、nIoU 下降 2.55%,充分说明层级编码特征对目标重建至关重要。移除编码器特征 $F_{en}$(即取消跳跃连接)同样造成全数据集指标下降,验证了细粒度局部特征在结构保持中的不可替代性。
📌配图:此处配Table VII——HFFD 内部组件消融实验结果表。
四、实验设置
数据集
| 数据集 | 图像数量 | 分辨率 | 特点 |
|---|---|---|---|
| NUAA-SIRST | 427 | 320×320 | 经典红外小目标基准 |
| IRSTD-1K | 1001 | 512×512 | 大规模多场景 |
| NUDT-SIRST | 1327 | 256×256 | 多目标、高密度场景 |
| NoisySIRST | 基于 NUAA-SIRST | 256×256 | 高斯白噪声(σ=10/20/30) |
训练/测试划分比例均为 4:1,所有图像均转换为灰度图并按训练集均值和标准差归一化。
训练细节
- 优化器:AdamW,初始学习率 0.001,权重衰减 $10^{-2}$;
- 学习率调度:余弦退火,最低降至 $1\times10^{-5}$;
- 权重初始化:Kaiming 初始化;
- 数据增强:随机旋转、水平翻转;基于掩码的随机裁剪(正样本概率 0.5);不足尺寸图像零填充。
📌配图:此处配Table I——不同数据集的自定义超参数设置表(含 Epoch、学习率、Batch Size 等)。
五、实验结果
5.1 与 SOTA 方法的定量比较
本文将 HAFNet 与6 种传统方法(Top-Hat、Max-Median、WSLCM、TLLCM、IPI、NOLC)和7 种深度学习方法(ACM、RDIAN、DNANet、UIUNet、RPCANet、MSHNet、SCTransNet)进行全面比较,评估指标包括 IoU↑、nIoU↑、↑、
和 F1↑。
📌配图建议:此处配Table II——三个基准数据集上与 SOTA 方法的全面定量比较结果表,重点关注 HAFNet 各列的最优值(加粗标注)。
关键结论:
- NUAA-SIRST:IoU79.19%(超第二名 SCTransNet/DNANet 的 75.46%/76.34% 约 2.62%),
高达97.72%,
低至14.06×10⁻⁶,F1 达88.39%;
- NUDT-SIRST:IoU96.28%(超第二名约 3.52%),
达到惊人的99.26%,
仅1.79×10⁻⁶,F198.10%;
- IRSTD-1K:nIoU69.23%(超第二名约 2.87%),F180.91%;
- 传统方法与深度学习方法差距明显,最佳传统方法 NOLC 在 NUAA-SIRST 上 IoU 仅 17.70%,不足深度学习方法的三分之一。
ROC 曲线分析:
📌配图:此处配Fig. 6——三个数据集上不同方法的 ROC 曲线对比图,HAFNet 的曲线始终位于其他方法之上,在 NUAA-SIRST 和 NUDT-SIRST 上 AUC 最大。
HAFNet 的 ROC 曲线在三个数据集上均位于所有竞争方法之上,表明在检测概率与误报率之间取得了最优权衡,尤其在低误报率区间优势更为突出。
5.2 噪声鲁棒性评估
在 NoisySIRST 数据集(向 NUAA-SIRST 注入不同强度高斯白噪声)上与其他深度学习方法对比:
📌配图:此处配Table III——NoisySIRST 数据集上不同噪声强度下各方法的 IoU/nIoU 对比表。
- σ_n=10(SNR=5.35):IoU79.23%、nIoU78.16%,分别超出第二名(UIUNet)1.46%和2.45%;
- σ_n=20(SNR=3.69):IoU72.90%、nIoU72.78%,仍保持领先;
- σ_n=30(SNR=2.76):IoU69.97%、nIoU69.50%,在极端噪声下仍具竞争力。
整体结果验证了 HAFNet 在噪声环境下的稳定性,DSPM 的多尺度感知与 HFFE/HFFD 的层级特征融合共同提供了对噪声的内在抵抗力。
5.3 定性结果
📌配图:此处配Fig. 7——在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 三个数据集上各方法检测结果可视化(红框=正确检测,蓝框=漏检,黄框=误报),覆盖海面、天空、复杂地面等多种典型场景。
可视化对比揭示以下规律:
- 传统方法在 Fig. 7(c)(f) 等杂乱背景下产生大量误报,深度学习方法误报率明显更低;
- 在 Fig. 7(e) 中,DNANet、RPCANet、MSHNet、SCTransNet 均出现漏检,UIUNet 和 HAFNet 均能检测到全部目标,但HAFNet 检测到的目标形状更接近真值(Ground Truth),体现了 HFFD 在目标形态保持和分割精度上的优势。
📌配图:此处配Fig. 8——IRSTD-1K 数据集上各方法的 3D 可视化与 Grad-CAM 可视化对比,直观展示 HAFNet 更精准的目标响应区域和更低的背景激活。
📌配图:此处配Fig. 9——IRSTD-1K 数据集上的特征可视化对比(Grad-CAM),红框=真正例,黄框=假正例,绿框=漏检,HAFNet 假正例和漏检数量最少。
六、消融实验
6.1 各模块贡献分析
以标准 U-Net 为基线,逐步加入 DS、DSPM、HFFE、HFFD:
📌配图:此处配Table IV——各模块消融实验结果(平均 IoU%/nIoU%/F1%),以及对应的逐步提升趋势。
- 加入 DS:IoU/nIoU/F1 从 75.02/75.94/85.47 提升至 75.17/76.04/85.56(提升有限但稳定);
- 加入 DSPM:最大单模块提升,IoU/nIoU/F1 跃升至 79.95/81.11/88.39(分别提升约 4.93%/5.17%/2.92%);
- 加入 HFFE:进一步提升至 80.71/81.51/88.84,有效降低误报率;
- 加入 HFFD:最终达到81.14/82.11/89.13,相比基线提升6.12%/6.17%/3.66%。
📌配图:此处配Fig. 10——不同模块组合的 Grad-CAM 可视化,直观展示各模块对目标激活区域的逐步改善过程。
6.2 DSPM 特征提取能力对比
将 DSPM 分别替换为 DNANet 的密集嵌套交互模块(DNIM)和 ResNet 残差块(RB),构造变体 H.DNIM 和 H.RB:
📌配图:此处配Table VIII——不同特征提取模块的变体对比实验结果(IoU%/nIoU%/F1%)。
HAFNet(含 DSPM)在两个数据集上均取得最优表现,H.RB 和 H.DNIM 存在大量误报和漏检,印证了专为红外图像设计的 DSPM 相比通用分类骨干的显著优势。
📌配图:此处配Fig. 11——不同特征提取模块变体的可视化检测结果对比(红框=正确,绿框=漏检,黄框=误报)。
6.3 网络深度影响分析
📌配图:此处配Table IX——不同网络深度(3~6 层)的参数量、FLOPs 及检测性能对比表。
- 3 层:IoU/nIoU = 78.10%/80.26%(NUAA-SIRST),性能已相当可观;
- 4 层:78.38%/80.35%,受益于更深的特征表示;
- 5 层(HAFNet):取得最佳性能;
- 6 层:性能开始下降(过度特征压缩,细粒度目标细节丢失)。
综合模型复杂度与检测精度,五层架构为最优设计。
七、模型复杂度分析
📌配图:此处配Table X——各方法参数量(M)、FLOPs(G)、推理延迟(ms)对比表。
- MSHNet 和 DNANet 参数量小、计算量低,但检测性能相对有限;
- UIUNet 检测精度高,但参数量高达 50.54M、FLOPs 54.43G,实用部署受限;
- HAFNet 以适中的 13.55M 参数和 24.68G FLOPs 实现了 SOTA 检测性能,在精度与效率之间取得了良好平衡,GPU 推理延迟仅 24.77ms,具备实际应用价值。
八、总结与展望
主要贡献回顾
- DSPM:双分支(标准卷积 + 膨胀卷积)+ 双重注意力(SAM + CAM),专为红外图像设计的特征提取骨干,有效替代可见光预训练骨干网络;
- HFFE:通过跨层 SAM、SWM 互校准和 CoordAtt 位置编码,实现相邻编码层的层级特征融合,增强多尺度语义一致性;
- HFFD:融合三路异质特征(编码器细节、层级语义、解码器上下文),通过多尺度渐进增强实现高保真目标重建;
- 全面实验验证:在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 和 NoisySIRST 四个数据集上均超越现有 SOTA 方法。
当前局限
双分支特征提取和逐层融合模块引入了较多参数和计算量(13.55M 参数),在资源受限的嵌入式平台上实时部署面临挑战。
未来方向
作者计划面向轻量化模型设计和推理优化,提升 HAFNet 在实际应用场景中的可部署性。