（论文速读）HAFNet:用于红外小目标检测的分层注意力融合网络-编程阁

论文题目：HAFNet: Hierarchical Attention Fusion Network for Infrared Small Target Detection（用于红外小目标检测的分层注意力融合网络）

期刊：IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

摘要：红外小目标检测(IRSTD)涉及识别空间范围小、信杂比低、经常嵌入动态和复杂背景中的目标，这使得任务特别具有挑战性。得益于强大的特征提取和多尺度特征融合特性，U-Net在IRSTD任务中表现良好。然而，现有的U-Net方法往往只关注优化骨干特征提取或跳过连接，这限制了它们在复杂场景下的性能，难以有效识别小目标。为了解决这一限制，我们提出了一种基于U-Net架构的分层注意力融合网络，即HAFNet。具体而言，设计了双分支语义感知模块(DSPM)作为特征提取主干，以增强上下文语义交互。该模块集成了使用标准卷积和扩展卷积的双分支特征提取，同时利用空间和通道注意模块(CAMs)有效地将小目标从背景噪声中分离出来。此外，我们通过合并层次特征融合编码器(HFFE)和层次特征融合解码器(HFFD)扩展了跳过连接。这些模块利用分层注意引导和编码特征注入跳过连接(esc)来实现编码器和解码器之间多尺度、多层次语义特征的有效融合。在三个公共数据集(NUAA-SIRST, IRSTD- 1k和NUDT-SIRST)上进行的大量实验表明，所提出的HAFNet优于现有的IRSTD方法，并实现了最先进的(SOTA)检测性能。

https://github.com/ Wangtao-Bao/HAFNet

HAFNet：面向红外小目标检测的层级注意力融合网络详解

一、背景与动机

红外小目标检测（Infrared Small Target Detection，IRSTD）是指在红外图像中准确识别并定位体积微小、对比度极低的目标，广泛应用于早期预警系统、海上搜救等军民两用领域。与可见光目标检测相比，IRSTD 面临三大核心挑战：

目标极小：目标仅占图像极少数像素，空间信息极为有限；
低信杂比：目标与背景的对比度极低，极易被噪声掩盖；
背景复杂：海面、云层、地形等复杂背景产生大量干扰，传统方法误报率高。

基于 U-Net 的方法凭借编解码器结构与跳跃连接，在 IRSTD 任务中取得了显著进展。然而，现有方法存在两个关键瓶颈，限制了进一步性能提升。

问题一：骨干网络与红外图像不匹配

现有大量方法（如 ACM 使用 ResNet-20、DNA-Net 使用 ResNet-18/34、MTU-Net 使用 ResNet-10/18/34）沿用为可见光图像分类设计的骨干网络作为特征提取模块。由于可见光与红外图像在光谱分布、数据特性上存在本质差异，这类骨干网络往往无法有效泛化到红外场景，导致特征表达能力不足，在复杂红外环境中鲁棒性下降。

问题二：传统跳跃连接存在语义鸿沟

标准 U-Net 的跳跃连接（CSC）仅在相同分辨率的编解码器层之间直接传递特征。这一策略忽视了低层特征（富含空间细节但对噪声敏感）与高层特征（语义抽象但缺乏细粒度结构信息）之间固有的语义差距，导致异质特征融合效果不佳，尤其难以在杂乱高纹理背景中精确重建小目标。

📌配图：此处配Fig. 1——展示 DNA-Net、SCTransNet、UIUNet 与 HAFNet 四种方法的跳跃连接结构对比示意图，直观呈现 HAFNet 引入的新型层级跳跃连接（HSC、ESC）与传统方案的区别。

二、HAFNet 整体架构

为解决上述问题，本文提出HAFNet（Hierarchical Attention Fusion Network），从特征提取骨干和跳跃连接机制两个维度对 U-Net 进行系统性改进。

整体架构采用五层编解码器结构，包含三个核心模块：

模块	作用
DSPM（双分支语义感知模块）	替代传统分类骨干，专为红外图像设计的特征提取模块
HFFE（层级特征融合编码器）	融合相邻编码器层特征，生成层级编码特征
HFFD（层级特征融合解码器）	融合多源特征，增强解码器重建能力

网络还设计了三类跳跃连接协同工作：

CSC：传统同尺度跳跃连接（保留原始 U-Net 的局部细节传递）
HSC：层级注意力引导跳跃连接（将 HFFE 特征传入解码器）
ESC：编码特征注入跳跃连接

📌配图：此处配Fig. 2——HAFNet 完整架构示意图，展示五个编码阶段、HFFE/HFFD 模块位置、三类跳跃连接的流向，以及深度监督（DS）策略的部署位置。

各编码阶段输出特征图通道数为 C = [16, 32, 64, 128, 256]，分辨率依次减半。最终各解码层特征经 1×1 卷积 + Sigmoid 生成分割图，并使用Soft-IoU Loss进行深度监督优化。

三、核心模块详解

3.1 双分支语义感知模块（DSPM）

传统单一尺度卷积感受野固定，难以同时捕获局部细节与全局上下文，无法有效区分红外小目标与复杂背景。DSPM 从多尺度特征提取和注意力精炼两个层面加以解决。

双分支特征提取：

第一分支：两层标准 3×3 卷积，保留局部空间一致性，提取低层基础特征；
第二分支：膨胀率分别为 4 和 2 的膨胀卷积，大幅扩展感受野，捕获跨尺度上下文信息。
两路特征拼接后经 1×1 卷积融合，形成多尺度特征。

双重注意力精炼：

依次通过空间注意力模块（SAM）和通道注意力模块（CAM）（来自 CBAM）对融合特征进行精炼：SAM 聚焦目标所在的空间区域，CAM 强调目标相关的特征通道，共同抑制背景噪声、突出小目标响应。

📌配图：此处配Fig. 3——DSPM 详细结构图，展示双分支卷积路径（上路标准卷积、下路膨胀卷积）、特征拼接操作，以及右侧空间注意力模块（SAM）和通道注意力模块（CAM）的串联结构。

消融验证（Table V）：移除标准卷积（w/o Conv）导致 NUAA-SIRST 上 IoU 下降5.99%，移除膨胀卷积（w/o D.Conv）下降2.38%，说明标准卷积对局部特征提取更为关键。移除 SAM 导致 IRSTD-1K 上 nIoU 下降 1.57%，移除 CAM 导致 NUDT-SIRST 上 nIoU 下降 0.83%。完整 DSPM 在三个数据集上均取得最佳 IoU/nIoU。

📌配图：此处配Table V——DSPM 内部组件消融实验结果表。

3.2 层级特征融合编码器（HFFE）

DSPM 扩大感受野的同时，也可能引入更多误报（伪目标），且单层特征缺乏跨层语义协同能力。HFFE 通过跨层注意力交互解决这一问题。

输入：相邻两层编码特征——低层（高分辨率、细节丰富）和高层（低分辨率、语义丰富）。

处理流程：

分辨率对齐 + SAM 提炼：将双线性上采样至的分辨率，两路特征分别通过 SAM 提炼目标相关区域，得到和；
空间权重矩阵（SWM）生成：通过 1×1 卷积 + Sigmoid 分别生成两路空间权重矩阵，用对方的权重矩阵对自身特征进行重校准：这一互相加权的设计使两层特征能够互相"关注"彼此的重要区域；
坐标注意力（CoordAtt）融合：将和拼接后送入 CoordAtt 模块，编码水平和垂直方向的位置依赖，生成融合坐标注意力权重，保留对小目标定位至关重要的位置信息；
最终输出：

📌配图：此处配Fig. 4——HFFE 详细结构图，展示低层/高层特征的双路 SAM 处理、SWM 交叉乘积、CoordAtt 模块，以及最终特征拼接输出的完整流程。

消融验证（Table VI）：移除 CoordAtt 导致 NUAA-SIRST 上 IoU 下降3.08%、nIoU 下降 2.07%，说明位置编码对挑战性场景至关重要。移除交叉乘积操作 $\otimes^1$（式13）或 $\otimes^2$（式14）均造成全数据集一致性下降，验证了跨层特征重校准机制的有效性。

📌配图：此处配Table VI——HFFE 内部组件消融实验结果表。

3.3 层级特征融合解码器（HFFD）

传统 U-Net 解码器仅依赖同尺度跳跃连接，难以同时捕获全局语义上下文与细粒度局部细节。HFFD 通过整合三路异质输入实现更全面的目标重建：

编码器特征 $F_{en}$：提供精细的局部细节，支持目标边界的精确重建；
层级编码特征 $F_{HFFE}$：聚合多尺度编码器表示，增强全局语义理解；
上采样解码器特征 $F_{de}$：来自上一解码层，为当前层提供空间上下文引导。

处理流程：

首先将与拼接，通过 4 个 1×1 卷积进行特征分解（FD），得到四路特征图；

随后以不同膨胀率进行多尺度渐进增强：

最终拼接多尺度特征并与求和，经 3×3 卷积与整合，生成最终层级解码特征：

📌配图建议：此处配Fig. 5——HFFD 详细结构图，展示三路输入融合、特征分解（FD）、三路膨胀卷积渐进增强、与整合的完整计算流程。

消融验证（Table VII）：移除层级语义信息 $F_{HFFE}$ 带来最大性能损失，NUAA-SIRST 上 IoU 下降3.28%、nIoU 下降 2.55%，充分说明层级编码特征对目标重建至关重要。移除编码器特征 $F_{en}$（即取消跳跃连接）同样造成全数据集指标下降，验证了细粒度局部特征在结构保持中的不可替代性。

📌配图：此处配Table VII——HFFD 内部组件消融实验结果表。

四、实验设置

数据集

数据集	图像数量	分辨率	特点
NUAA-SIRST	427	320×320	经典红外小目标基准
IRSTD-1K	1001	512×512	大规模多场景
NUDT-SIRST	1327	256×256	多目标、高密度场景
NoisySIRST	基于 NUAA-SIRST	256×256	高斯白噪声（σ=10/20/30）

训练/测试划分比例均为 4:1，所有图像均转换为灰度图并按训练集均值和标准差归一化。

训练细节

优化器：AdamW，初始学习率 0.001，权重衰减 $10^{-2}$；
学习率调度：余弦退火，最低降至 $1\times10^{-5}$；
权重初始化：Kaiming 初始化；
数据增强：随机旋转、水平翻转；基于掩码的随机裁剪（正样本概率 0.5）；不足尺寸图像零填充。

📌配图：此处配Table I——不同数据集的自定义超参数设置表（含 Epoch、学习率、Batch Size 等）。

五、实验结果

5.1 与 SOTA 方法的定量比较

本文将 HAFNet 与6 种传统方法（Top-Hat、Max-Median、WSLCM、TLLCM、IPI、NOLC）和7 种深度学习方法（ACM、RDIAN、DNANet、UIUNet、RPCANet、MSHNet、SCTransNet）进行全面比较，评估指标包括 IoU↑、nIoU↑、↑、和 F1↑。

📌配图建议：此处配Table II——三个基准数据集上与 SOTA 方法的全面定量比较结果表，重点关注 HAFNet 各列的最优值（加粗标注）。

关键结论：

NUAA-SIRST：IoU79.19%（超第二名 SCTransNet/DNANet 的 75.46%/76.34% 约 2.62%），高达97.72%，低至14.06×10⁻⁶，F1 达88.39%；
NUDT-SIRST：IoU96.28%（超第二名约 3.52%），达到惊人的99.26%，仅1.79×10⁻⁶，F198.10%；
IRSTD-1K：nIoU69.23%（超第二名约 2.87%），F180.91%；
传统方法与深度学习方法差距明显，最佳传统方法 NOLC 在 NUAA-SIRST 上 IoU 仅 17.70%，不足深度学习方法的三分之一。

ROC 曲线分析：

📌配图：此处配Fig. 6——三个数据集上不同方法的 ROC 曲线对比图，HAFNet 的曲线始终位于其他方法之上，在 NUAA-SIRST 和 NUDT-SIRST 上 AUC 最大。

HAFNet 的 ROC 曲线在三个数据集上均位于所有竞争方法之上，表明在检测概率与误报率之间取得了最优权衡，尤其在低误报率区间优势更为突出。

5.2 噪声鲁棒性评估

在 NoisySIRST 数据集（向 NUAA-SIRST 注入不同强度高斯白噪声）上与其他深度学习方法对比：

📌配图：此处配Table III——NoisySIRST 数据集上不同噪声强度下各方法的 IoU/nIoU 对比表。

σ_n=10（SNR=5.35）：IoU79.23%、nIoU78.16%，分别超出第二名（UIUNet）1.46%和2.45%；
σ_n=20（SNR=3.69）：IoU72.90%、nIoU72.78%，仍保持领先；
σ_n=30（SNR=2.76）：IoU69.97%、nIoU69.50%，在极端噪声下仍具竞争力。

整体结果验证了 HAFNet 在噪声环境下的稳定性，DSPM 的多尺度感知与 HFFE/HFFD 的层级特征融合共同提供了对噪声的内在抵抗力。

5.3 定性结果

📌配图：此处配Fig. 7——在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 三个数据集上各方法检测结果可视化（红框=正确检测，蓝框=漏检，黄框=误报），覆盖海面、天空、复杂地面等多种典型场景。

可视化对比揭示以下规律：

传统方法在 Fig. 7(c)(f) 等杂乱背景下产生大量误报，深度学习方法误报率明显更低；
在 Fig. 7(e) 中，DNANet、RPCANet、MSHNet、SCTransNet 均出现漏检，UIUNet 和 HAFNet 均能检测到全部目标，但HAFNet 检测到的目标形状更接近真值（Ground Truth），体现了 HFFD 在目标形态保持和分割精度上的优势。

📌配图：此处配Fig. 8——IRSTD-1K 数据集上各方法的 3D 可视化与 Grad-CAM 可视化对比，直观展示 HAFNet 更精准的目标响应区域和更低的背景激活。

📌配图：此处配Fig. 9——IRSTD-1K 数据集上的特征可视化对比（Grad-CAM），红框=真正例，黄框=假正例，绿框=漏检，HAFNet 假正例和漏检数量最少。

六、消融实验

6.1 各模块贡献分析

以标准 U-Net 为基线，逐步加入 DS、DSPM、HFFE、HFFD：

📌配图：此处配Table IV——各模块消融实验结果（平均 IoU%/nIoU%/F1%），以及对应的逐步提升趋势。

加入 DS：IoU/nIoU/F1 从 75.02/75.94/85.47 提升至 75.17/76.04/85.56（提升有限但稳定）；
加入 DSPM：最大单模块提升，IoU/nIoU/F1 跃升至 79.95/81.11/88.39（分别提升约 4.93%/5.17%/2.92%）；
加入 HFFE：进一步提升至 80.71/81.51/88.84，有效降低误报率；
加入 HFFD：最终达到81.14/82.11/89.13，相比基线提升6.12%/6.17%/3.66%。

📌配图：此处配Fig. 10——不同模块组合的 Grad-CAM 可视化，直观展示各模块对目标激活区域的逐步改善过程。

6.2 DSPM 特征提取能力对比

将 DSPM 分别替换为 DNANet 的密集嵌套交互模块（DNIM）和 ResNet 残差块（RB），构造变体 H.DNIM 和 H.RB：

📌配图：此处配Table VIII——不同特征提取模块的变体对比实验结果（IoU%/nIoU%/F1%）。

HAFNet（含 DSPM）在两个数据集上均取得最优表现，H.RB 和 H.DNIM 存在大量误报和漏检，印证了专为红外图像设计的 DSPM 相比通用分类骨干的显著优势。

📌配图：此处配Fig. 11——不同特征提取模块变体的可视化检测结果对比（红框=正确，绿框=漏检，黄框=误报）。

6.3 网络深度影响分析

📌配图：此处配Table IX——不同网络深度（3~6 层）的参数量、FLOPs 及检测性能对比表。

3 层：IoU/nIoU = 78.10%/80.26%（NUAA-SIRST），性能已相当可观；
4 层：78.38%/80.35%，受益于更深的特征表示；
5 层（HAFNet）：取得最佳性能；
6 层：性能开始下降（过度特征压缩，细粒度目标细节丢失）。

综合模型复杂度与检测精度，五层架构为最优设计。

七、模型复杂度分析

📌配图：此处配Table X——各方法参数量（M）、FLOPs（G）、推理延迟（ms）对比表。

MSHNet 和 DNANet 参数量小、计算量低，但检测性能相对有限；
UIUNet 检测精度高，但参数量高达 50.54M、FLOPs 54.43G，实用部署受限；
HAFNet 以适中的 13.55M 参数和 24.68G FLOPs 实现了 SOTA 检测性能，在精度与效率之间取得了良好平衡，GPU 推理延迟仅 24.77ms，具备实际应用价值。

八、总结与展望

主要贡献回顾

DSPM：双分支（标准卷积 + 膨胀卷积）+ 双重注意力（SAM + CAM），专为红外图像设计的特征提取骨干，有效替代可见光预训练骨干网络；
HFFE：通过跨层 SAM、SWM 互校准和 CoordAtt 位置编码，实现相邻编码层的层级特征融合，增强多尺度语义一致性；
HFFD：融合三路异质特征（编码器细节、层级语义、解码器上下文），通过多尺度渐进增强实现高保真目标重建；
全面实验验证：在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 和 NoisySIRST 四个数据集上均超越现有 SOTA 方法。

当前局限

双分支特征提取和逐层融合模块引入了较多参数和计算量（13.55M 参数），在资源受限的嵌入式平台上实时部署面临挑战。

未来方向

作者计划面向轻量化模型设计和推理优化，提升 HAFNet 在实际应用场景中的可部署性。

（论文速读）HAFNet:用于红外小目标检测的分层注意力融合网络