news 2026/5/8 16:13:11

(论文速读)HAFNet:用于红外小目标检测的分层注意力融合网络

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(论文速读)HAFNet:用于红外小目标检测的分层注意力融合网络

论文题目:HAFNet: Hierarchical Attention Fusion Network for Infrared Small Target Detection(用于红外小目标检测的分层注意力融合网络)

期刊:IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

摘要:红外小目标检测(IRSTD)涉及识别空间范围小、信杂比低、经常嵌入动态和复杂背景中的目标,这使得任务特别具有挑战性。得益于强大的特征提取和多尺度特征融合特性,U-Net在IRSTD任务中表现良好。然而,现有的U-Net方法往往只关注优化骨干特征提取或跳过连接,这限制了它们在复杂场景下的性能,难以有效识别小目标。为了解决这一限制,我们提出了一种基于U-Net架构的分层注意力融合网络,即HAFNet。具体而言,设计了双分支语义感知模块(DSPM)作为特征提取主干,以增强上下文语义交互。该模块集成了使用标准卷积和扩展卷积的双分支特征提取,同时利用空间和通道注意模块(CAMs)有效地将小目标从背景噪声中分离出来。此外,我们通过合并层次特征融合编码器(HFFE)和层次特征融合解码器(HFFD)扩展了跳过连接。这些模块利用分层注意引导和编码特征注入跳过连接(esc)来实现编码器和解码器之间多尺度、多层次语义特征的有效融合。在三个公共数据集(NUAA-SIRST, IRSTD- 1k和NUDT-SIRST)上进行的大量实验表明,所提出的HAFNet优于现有的IRSTD方法,并实现了最先进的(SOTA)检测性能。

https://github.com/ Wangtao-Bao/HAFNet


HAFNet:面向红外小目标检测的层级注意力融合网络详解

一、背景与动机

红外小目标检测(Infrared Small Target Detection,IRSTD)是指在红外图像中准确识别并定位体积微小、对比度极低的目标,广泛应用于早期预警系统、海上搜救等军民两用领域。与可见光目标检测相比,IRSTD 面临三大核心挑战:

  1. 目标极小:目标仅占图像极少数像素,空间信息极为有限;
  2. 低信杂比:目标与背景的对比度极低,极易被噪声掩盖;
  3. 背景复杂:海面、云层、地形等复杂背景产生大量干扰,传统方法误报率高。

基于 U-Net 的方法凭借编解码器结构与跳跃连接,在 IRSTD 任务中取得了显著进展。然而,现有方法存在两个关键瓶颈,限制了进一步性能提升。

问题一:骨干网络与红外图像不匹配

现有大量方法(如 ACM 使用 ResNet-20、DNA-Net 使用 ResNet-18/34、MTU-Net 使用 ResNet-10/18/34)沿用为可见光图像分类设计的骨干网络作为特征提取模块。由于可见光与红外图像在光谱分布、数据特性上存在本质差异,这类骨干网络往往无法有效泛化到红外场景,导致特征表达能力不足,在复杂红外环境中鲁棒性下降。

问题二:传统跳跃连接存在语义鸿沟

标准 U-Net 的跳跃连接(CSC)仅在相同分辨率的编解码器层之间直接传递特征。这一策略忽视了低层特征(富含空间细节但对噪声敏感)与高层特征(语义抽象但缺乏细粒度结构信息)之间固有的语义差距,导致异质特征融合效果不佳,尤其难以在杂乱高纹理背景中精确重建小目标。

📌配图:此处配Fig. 1——展示 DNA-Net、SCTransNet、UIUNet 与 HAFNet 四种方法的跳跃连接结构对比示意图,直观呈现 HAFNet 引入的新型层级跳跃连接(HSC、ESC)与传统方案的区别。


二、HAFNet 整体架构

为解决上述问题,本文提出HAFNet(Hierarchical Attention Fusion Network),从特征提取骨干跳跃连接机制两个维度对 U-Net 进行系统性改进。

整体架构采用五层编解码器结构,包含三个核心模块:

模块作用
DSPM(双分支语义感知模块)替代传统分类骨干,专为红外图像设计的特征提取模块
HFFE(层级特征融合编码器)融合相邻编码器层特征,生成层级编码特征
HFFD(层级特征融合解码器)融合多源特征,增强解码器重建能力

网络还设计了三类跳跃连接协同工作:

  • CSC:传统同尺度跳跃连接(保留原始 U-Net 的局部细节传递)
  • HSC:层级注意力引导跳跃连接(将 HFFE 特征传入解码器)
  • ESC:编码特征注入跳跃连接

📌配图:此处配Fig. 2——HAFNet 完整架构示意图,展示五个编码阶段、HFFE/HFFD 模块位置、三类跳跃连接的流向,以及深度监督(DS)策略的部署位置。

各编码阶段输出特征图通道数为 C = [16, 32, 64, 128, 256],分辨率依次减半。最终各解码层特征经 1×1 卷积 + Sigmoid 生成分割图,并使用Soft-IoU Loss进行深度监督优化。


三、核心模块详解

3.1 双分支语义感知模块(DSPM)

传统单一尺度卷积感受野固定,难以同时捕获局部细节与全局上下文,无法有效区分红外小目标与复杂背景。DSPM 从多尺度特征提取注意力精炼两个层面加以解决。

双分支特征提取:

  • 第一分支:两层标准 3×3 卷积,保留局部空间一致性,提取低层基础特征;
  • 第二分支:膨胀率分别为 4 和 2 的膨胀卷积,大幅扩展感受野,捕获跨尺度上下文信息。
  • 两路特征拼接后经 1×1 卷积融合,形成多尺度特征

双重注意力精炼:

依次通过空间注意力模块(SAM)通道注意力模块(CAM)(来自 CBAM)对融合特征进行精炼:SAM 聚焦目标所在的空间区域,CAM 强调目标相关的特征通道,共同抑制背景噪声、突出小目标响应。

📌配图:此处配Fig. 3——DSPM 详细结构图,展示双分支卷积路径(上路标准卷积、下路膨胀卷积)、特征拼接操作,以及右侧空间注意力模块(SAM)和通道注意力模块(CAM)的串联结构。

消融验证(Table V):移除标准卷积(w/o Conv)导致 NUAA-SIRST 上 IoU 下降5.99%,移除膨胀卷积(w/o D.Conv)下降2.38%,说明标准卷积对局部特征提取更为关键。移除 SAM 导致 IRSTD-1K 上 nIoU 下降 1.57%,移除 CAM 导致 NUDT-SIRST 上 nIoU 下降 0.83%。完整 DSPM 在三个数据集上均取得最佳 IoU/nIoU。

📌配图:此处配Table V——DSPM 内部组件消融实验结果表。


3.2 层级特征融合编码器(HFFE)

DSPM 扩大感受野的同时,也可能引入更多误报(伪目标),且单层特征缺乏跨层语义协同能力。HFFE 通过跨层注意力交互解决这一问题。

输入:相邻两层编码特征——低层(高分辨率、细节丰富)和高层(低分辨率、语义丰富)。

处理流程:

  1. 分辨率对齐 + SAM 提炼:将双线性上采样至的分辨率,两路特征分别通过 SAM 提炼目标相关区域,得到

  2. 空间权重矩阵(SWM)生成:通过 1×1 卷积 + Sigmoid 分别生成两路空间权重矩阵,用对方的权重矩阵对自身特征进行重校准:这一互相加权的设计使两层特征能够互相"关注"彼此的重要区域;

  3. 坐标注意力(CoordAtt)融合:将拼接后送入 CoordAtt 模块,编码水平和垂直方向的位置依赖,生成融合坐标注意力权重,保留对小目标定位至关重要的位置信息;

  4. 最终输出

📌配图:此处配Fig. 4——HFFE 详细结构图,展示低层/高层特征的双路 SAM 处理、SWM 交叉乘积、CoordAtt 模块,以及最终特征拼接输出的完整流程。

消融验证(Table VI):移除 CoordAtt 导致 NUAA-SIRST 上 IoU 下降3.08%、nIoU 下降 2.07%,说明位置编码对挑战性场景至关重要。移除交叉乘积操作 $\otimes^1$(式13)或 $\otimes^2$(式14)均造成全数据集一致性下降,验证了跨层特征重校准机制的有效性。

📌配图:此处配Table VI——HFFE 内部组件消融实验结果表。


3.3 层级特征融合解码器(HFFD)

传统 U-Net 解码器仅依赖同尺度跳跃连接,难以同时捕获全局语义上下文与细粒度局部细节。HFFD 通过整合三路异质输入实现更全面的目标重建:

  1. 编码器特征 $F_{en}$:提供精细的局部细节,支持目标边界的精确重建;
  2. 层级编码特征 $F_{HFFE}$:聚合多尺度编码器表示,增强全局语义理解;
  3. 上采样解码器特征 $F_{de}$:来自上一解码层,为当前层提供空间上下文引导。

处理流程:

首先将拼接,通过 4 个 1×1 卷积进行特征分解(FD),得到四路特征图

随后以不同膨胀率进行多尺度渐进增强

最终拼接多尺度特征并与求和,经 3×3 卷积与整合,生成最终层级解码特征

📌配图建议:此处配Fig. 5——HFFD 详细结构图,展示三路输入融合、特征分解(FD)、三路膨胀卷积渐进增强、与整合的完整计算流程。

消融验证(Table VII):移除层级语义信息 $F_{HFFE}$ 带来最大性能损失,NUAA-SIRST 上 IoU 下降3.28%、nIoU 下降 2.55%,充分说明层级编码特征对目标重建至关重要。移除编码器特征 $F_{en}$(即取消跳跃连接)同样造成全数据集指标下降,验证了细粒度局部特征在结构保持中的不可替代性。

📌配图:此处配Table VII——HFFD 内部组件消融实验结果表。


四、实验设置

数据集

数据集图像数量分辨率特点
NUAA-SIRST427320×320经典红外小目标基准
IRSTD-1K1001512×512大规模多场景
NUDT-SIRST1327256×256多目标、高密度场景
NoisySIRST基于 NUAA-SIRST256×256高斯白噪声(σ=10/20/30)

训练/测试划分比例均为 4:1,所有图像均转换为灰度图并按训练集均值和标准差归一化。

训练细节

  • 优化器:AdamW,初始学习率 0.001,权重衰减 $10^{-2}$;
  • 学习率调度:余弦退火,最低降至 $1\times10^{-5}$;
  • 权重初始化:Kaiming 初始化;
  • 数据增强:随机旋转、水平翻转;基于掩码的随机裁剪(正样本概率 0.5);不足尺寸图像零填充。

📌配图:此处配Table I——不同数据集的自定义超参数设置表(含 Epoch、学习率、Batch Size 等)。


五、实验结果

5.1 与 SOTA 方法的定量比较

本文将 HAFNet 与6 种传统方法(Top-Hat、Max-Median、WSLCM、TLLCM、IPI、NOLC)和7 种深度学习方法(ACM、RDIAN、DNANet、UIUNet、RPCANet、MSHNet、SCTransNet)进行全面比较,评估指标包括 IoU↑、nIoU↑、↑、和 F1↑。

📌配图建议:此处配Table II——三个基准数据集上与 SOTA 方法的全面定量比较结果表,重点关注 HAFNet 各列的最优值(加粗标注)。

关键结论:

  • NUAA-SIRST:IoU79.19%(超第二名 SCTransNet/DNANet 的 75.46%/76.34% 约 2.62%),高达97.72%低至14.06×10⁻⁶,F1 达88.39%
  • NUDT-SIRST:IoU96.28%(超第二名约 3.52%),达到惊人的99.26%1.79×10⁻⁶,F198.10%
  • IRSTD-1K:nIoU69.23%(超第二名约 2.87%),F180.91%
  • 传统方法与深度学习方法差距明显,最佳传统方法 NOLC 在 NUAA-SIRST 上 IoU 仅 17.70%,不足深度学习方法的三分之一。

ROC 曲线分析:

📌配图:此处配Fig. 6——三个数据集上不同方法的 ROC 曲线对比图,HAFNet 的曲线始终位于其他方法之上,在 NUAA-SIRST 和 NUDT-SIRST 上 AUC 最大。

HAFNet 的 ROC 曲线在三个数据集上均位于所有竞争方法之上,表明在检测概率与误报率之间取得了最优权衡,尤其在低误报率区间优势更为突出。


5.2 噪声鲁棒性评估

在 NoisySIRST 数据集(向 NUAA-SIRST 注入不同强度高斯白噪声)上与其他深度学习方法对比:

📌配图:此处配Table III——NoisySIRST 数据集上不同噪声强度下各方法的 IoU/nIoU 对比表。

  • σ_n=10(SNR=5.35):IoU79.23%、nIoU78.16%,分别超出第二名(UIUNet)1.46%2.45%
  • σ_n=20(SNR=3.69):IoU72.90%、nIoU72.78%,仍保持领先;
  • σ_n=30(SNR=2.76):IoU69.97%、nIoU69.50%,在极端噪声下仍具竞争力。

整体结果验证了 HAFNet 在噪声环境下的稳定性,DSPM 的多尺度感知与 HFFE/HFFD 的层级特征融合共同提供了对噪声的内在抵抗力。


5.3 定性结果

📌配图:此处配Fig. 7——在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 三个数据集上各方法检测结果可视化(红框=正确检测,蓝框=漏检,黄框=误报),覆盖海面、天空、复杂地面等多种典型场景。

可视化对比揭示以下规律:

  • 传统方法在 Fig. 7(c)(f) 等杂乱背景下产生大量误报,深度学习方法误报率明显更低;
  • 在 Fig. 7(e) 中,DNANet、RPCANet、MSHNet、SCTransNet 均出现漏检,UIUNet 和 HAFNet 均能检测到全部目标,但HAFNet 检测到的目标形状更接近真值(Ground Truth),体现了 HFFD 在目标形态保持和分割精度上的优势。

📌配图:此处配Fig. 8——IRSTD-1K 数据集上各方法的 3D 可视化与 Grad-CAM 可视化对比,直观展示 HAFNet 更精准的目标响应区域和更低的背景激活。

📌配图:此处配Fig. 9——IRSTD-1K 数据集上的特征可视化对比(Grad-CAM),红框=真正例,黄框=假正例,绿框=漏检,HAFNet 假正例和漏检数量最少。


六、消融实验

6.1 各模块贡献分析

以标准 U-Net 为基线,逐步加入 DS、DSPM、HFFE、HFFD:

📌配图:此处配Table IV——各模块消融实验结果(平均 IoU%/nIoU%/F1%),以及对应的逐步提升趋势。

  • 加入 DS:IoU/nIoU/F1 从 75.02/75.94/85.47 提升至 75.17/76.04/85.56(提升有限但稳定);
  • 加入 DSPM:最大单模块提升,IoU/nIoU/F1 跃升至 79.95/81.11/88.39(分别提升约 4.93%/5.17%/2.92%);
  • 加入 HFFE:进一步提升至 80.71/81.51/88.84,有效降低误报率;
  • 加入 HFFD:最终达到81.14/82.11/89.13,相比基线提升6.12%/6.17%/3.66%

📌配图:此处配Fig. 10——不同模块组合的 Grad-CAM 可视化,直观展示各模块对目标激活区域的逐步改善过程。

6.2 DSPM 特征提取能力对比

将 DSPM 分别替换为 DNANet 的密集嵌套交互模块(DNIM)和 ResNet 残差块(RB),构造变体 H.DNIM 和 H.RB:

📌配图:此处配Table VIII——不同特征提取模块的变体对比实验结果(IoU%/nIoU%/F1%)。

HAFNet(含 DSPM)在两个数据集上均取得最优表现,H.RB 和 H.DNIM 存在大量误报和漏检,印证了专为红外图像设计的 DSPM 相比通用分类骨干的显著优势。

📌配图:此处配Fig. 11——不同特征提取模块变体的可视化检测结果对比(红框=正确,绿框=漏检,黄框=误报)。

6.3 网络深度影响分析

📌配图:此处配Table IX——不同网络深度(3~6 层)的参数量、FLOPs 及检测性能对比表。

  • 3 层:IoU/nIoU = 78.10%/80.26%(NUAA-SIRST),性能已相当可观;
  • 4 层:78.38%/80.35%,受益于更深的特征表示;
  • 5 层(HAFNet):取得最佳性能;
  • 6 层:性能开始下降(过度特征压缩,细粒度目标细节丢失)。

综合模型复杂度与检测精度,五层架构为最优设计


七、模型复杂度分析

📌配图:此处配Table X——各方法参数量(M)、FLOPs(G)、推理延迟(ms)对比表。

  • MSHNet 和 DNANet 参数量小、计算量低,但检测性能相对有限;
  • UIUNet 检测精度高,但参数量高达 50.54M、FLOPs 54.43G,实用部署受限;
  • HAFNet 以适中的 13.55M 参数和 24.68G FLOPs 实现了 SOTA 检测性能,在精度与效率之间取得了良好平衡,GPU 推理延迟仅 24.77ms,具备实际应用价值。

八、总结与展望

主要贡献回顾

  1. DSPM:双分支(标准卷积 + 膨胀卷积)+ 双重注意力(SAM + CAM),专为红外图像设计的特征提取骨干,有效替代可见光预训练骨干网络;
  2. HFFE:通过跨层 SAM、SWM 互校准和 CoordAtt 位置编码,实现相邻编码层的层级特征融合,增强多尺度语义一致性;
  3. HFFD:融合三路异质特征(编码器细节、层级语义、解码器上下文),通过多尺度渐进增强实现高保真目标重建;
  4. 全面实验验证:在 NUAA-SIRST、IRSTD-1K、NUDT-SIRST 和 NoisySIRST 四个数据集上均超越现有 SOTA 方法。

当前局限

双分支特征提取和逐层融合模块引入了较多参数和计算量(13.55M 参数),在资源受限的嵌入式平台上实时部署面临挑战。

未来方向

作者计划面向轻量化模型设计推理优化,提升 HAFNet 在实际应用场景中的可部署性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 16:13:01

AI-Book-Generator:基于LLM的递归生成框架,实现结构化内容创作

1. 项目概述:当AI成为你的合著者最近在GitHub上看到一个挺有意思的项目,叫“AI-Book-Generator”。光看名字,你可能会觉得这又是一个用AI批量生成低质量内容的玩具。但当我深入研究了SimonWaldherr的这个开源项目后,发现它的设计思…

作者头像 李华
网站建设 2026/5/8 16:12:54

3步掌握WebSite-Downloader:高效网站离线下载终极方案

3步掌握WebSite-Downloader:高效网站离线下载终极方案 【免费下载链接】WebSite-Downloader 项目地址: https://gitcode.com/gh_mirrors/web/WebSite-Downloader WebSite-Downloader是一款基于Python开发的开源网站下载工具,能够将整个网站完整下…

作者头像 李华
网站建设 2026/5/8 16:12:19

BACI编译器执行指南:从配置到运行,以及遇到的问题

一次完整的BACI实验环境搭建与问题排查实战记录一、BACI编译器简介与实验背景BACI(Ben-Ari Concurrent Interpreter)是一个专门为操作系统和并发编程教学设计的实验环境。在操作系统课程中,我们经常需要编写并发程序来理解进程同步、互斥、死…

作者头像 李华
网站建设 2026/5/8 16:12:07

AI智能体技能代码质量守护:静态分析与规范检查实践

1. 项目概述:一个为AI智能体“体检”的代码质量守护者最近在折腾AI智能体(Agent)的开发,尤其是在构建复杂的技能(Skills)库时,发现了一个普遍存在的痛点:代码质量参差不齐。不同的开…

作者头像 李华
网站建设 2026/5/8 16:11:09

我观察了100位优秀工程师,发现他们都有这3个共同习惯——给软件测试从业者的深度解读

软件工程领域,测试常常被误解为“找bug的”。但过去五年里,我有幸近距离观察了上百位从一线测试工程师成长为质量架构师、测试技术专家的同行,发现他们身上闪烁着一些极为相似的习惯。这些习惯与编程语言、测试框架、业务领域无关&#xff0c…

作者头像 李华