PR | IRDFusion：基于迭代关系图差异引导的特征融合用于多光谱目标-编程阁

PR | IRDFusion：基于迭代关系图差异引导的特征融合用于多光谱目标检测

文章目录

1.摘要&&引言
2.相关工作
- 2.1.目标检测
- 2.2.用于检测的多光谱特征融合
3.方法
- 3.1.架构
- 3.2.互惠特征精炼模块（MFRM）
- 3.3.差异特征反馈模块（DFFM）
- 3.4.重构为迭代关系图差异引导框架
- 3.5. 损失函数
5.结论

题目：IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection

期刊：未发表

论文：https://arxiv.org/abs/2509.09085

代码：https://github.com/61s61min/IRDFusion.git

年份：2025

1.摘要&&引言

当前的多光谱目标检测方法在进行特征融合时往往会保留多余的背景或噪声，从而限制了感知性能。为了解决这一问题，我们提出了一种基于跨模态特征对比和筛选策略的创新性特征融合框架，不同于传统方法。所提出的方法通过融合具有目标感知能力的互补跨模态特征来自适应地增强显著结构。同时抑制共享背景干扰的模态特征。我们的解决方案围绕两个新颖且专门设计的模块展开：互特征细化模块（Mutual Feature Refinement Module，MFRM）和差分特征反馈模块（Differential Feature Feedback Module，DFFM）。为实现稳健的特征学习，MFRM和DFFM被集成到一个统一的框架中，该框架被正式表述为迭代关系图差分引导特征融合机制，称为IRDFusion。IRDFusion通过逐步放大显著关系来实现高质量的跨模态融合

关键词：多光谱目标检测、跨模态特征融合、互特征细化模块、差异特征反馈模块

主要贡献：

提出了一种互特征细化模块（MFRM），用于增强两种模态间目标候选的模态特定特征，确保稳健的特征对齐。
受反馈差分放大器电路的启发，一种差分特征提出反馈模块（DFFM）来计算两种模态之间的互补判别特征，同时过滤冗余信息。
MFRM和DFFM通过动态差异关系图反馈机制进行联合优化，以有效地通过该机制整合来自不同模态的判别互补信息，这为渐进式多光谱特征融合提供了一种新策略。
所提出的方法IRDFusion基于MFRM和DFFM构建，在FLIR、LLVIP和M3FD数据集上达到了最先进的性能。

2.相关工作

2.1.目标检测

目标检测是计算机视觉领域的一项基本任务，主要可大致分为单阶段检测器和双阶段检测器。单阶段检测器，在特征图上直接进行回归，实现高检测速度。相比之下，双阶段检测器，首先生成候选区域，然后进行精细分类和边界框回归，通常能达到更高的准确率。此外，检测方法还可分为基于锚框和无锚框的方法。基于锚框的方法，依赖预定义的锚框进行目标预测；而无锚框的方法，则直接定位目标中心点或边界点，减少了对锚框设计的依赖，降低了计算复杂度。

近期对DETR框架的改进，如DINO ，通过对比去噪训练和改进的查询设计，进一步提升了性能和训练效率。在我们的研究中，我们选择了DETR框架，因为它具有端到端训练能力、简化的检测流程以及有效的全局上下文建模能力，这些特性提升了检测性能，尤其是在复杂场景中。
99)

2.2.用于检测的多光谱特征融合

多光谱目标检测结合了RGB和热成像两种模态，以提高在复杂场景中的检测性能。

我们提出的IRDFusion模型引入了一种新颖的关系差分反馈机制用于特征融合。具体而言，IRDFusion首先增强跨模态的语义信息，同时强调判别性差异线索。然后，它提取并反馈模态间差异作为引导信号，从而放大互补的目标特征并抑制冗余的背景信息。通过这种迭代反馈过程，IRDFusion逐步优化跨模态对齐，与现有的融合方法相比，提高了精度和鲁棒性。

3.方法

3.1.架构

该模型首先采用双分支骨干网络从RGB以及热学模式，而所提出的IRDFusion模块用于逐步融合跨模态特征。IRDFusion通过放大模态间差异并利用它们作为引导信号来逐步引导融合过程，从而增强特征表示。融合后的表示随后由简单特征金字塔（SFP）颈部处理，接着是Transformer编码器，最后输入到Co-DETR的多个并行检测头中。检测头的设计与Double-Co-DETR保持一致。架构有效地集成了互补的跨模态线索，从而在挑战性条件下显著提升了检测性能。

3.2.互惠特征精炼模块（MFRM）

互惠特征精炼模块（MFRM）旨在增强两种模态之间的特征表示，从而提高跨模态的一致性和判别能力。其核心思想是利用单一模态的自注意力矩阵，与Transformer结构中两种模态的加权值（Value）特征进行交互。通过这种方式，MFRM放大了跨模态表示，并产生了更具信息量的融合特征。

具体而言，如图3所示，首先通过不同的权重矩阵W将两种模态的特征投影，生成查询（Query）、键（Key）和值（Value）矩阵。然后，这些向量通过自注意力处理（如公式(1)所述），得到每种模态对应的注意力矩阵A i A_iAi，其中i ∈ {v, t}。
nZK1SD0-1762086632599)
其中，F i F_iFi表示RGB或红外模态的输入特征。Q i Q_iQi,K i K_iKi,V i V_iVi分别表示查询、键和值矩阵。表示矩阵乘法，W i q W^q_iWiq,W i k W^k_iWik,W i v W^v_iWiv是线性变换的权重矩阵，A i A_iAi表示注意力矩阵，d 表示特征维度。

其次，以RGB分支为例，我们通过整合来自红外（IR）分支的值（Value）向量V t V_tVt，将红外模态的信息集成进来。具体来说，将RGB分支的注意力矩阵应用于红外分支的值向量，使模型能在RGB分支关注的空间区域内强调红外线索。这样，两种模态之间的信息得到了有效增强，从而加强了它们的交互和融合。此过程在公式(2)中形式化表达：

其中，Vf_v 和Vf_t 分别是RGB和红外模态的融合值（Value）特征。

在融合值向量的过程中，我们在公式(3)中引入了一个可学习参数。该参数允许模型自适应地调整融合过程，通过使模型能够根据输入数据的特征缩放特征融合，从而提高鲁棒性。这种自适应机制有助于提升性能，并在特征对齐方面提供更大的灵活性。

其中，λ v λ_vλv和λ t λ_tλt是模态的融合权重，由可学习向量λ q 1 λ_q1λq1,λ q 2 λ_q2λq2,λ k 1 λ_k1λk1,λ k 2 λ_k2λk2和初始权重λinit 控制。
最后，我们根据公式(4)获得跨模态放大的特征。

其中，F i ′ F'_iFi′是最终的融合特征，Vf_i 表示融合后的值（Value）。

3.3.差异特征反馈模块（DFFM）

差异特征反馈模块（DFFM）受差分反馈放大器电路的启发，旨在利用模态间的差异特征作为指导信号，进行动态的跨模态融合。具体而言，这些差异特征捕捉了RGB和红外模态之间不重叠的信息，从而突出了它们的互补特性，同时抑制了共享的背景噪声。

如图3下半部分所示，以RGB分支为例，首先计算RGB和红外模态之间的差异特征，并引入一个可学习参数β来自适应控制其贡献。然后，将得到的差异特征加权并反馈到RGB特征中，放大模态间差异信号，并指导MFRM从另一模态中提取判别性线索。通过迭代反馈，DFFM逐步增强互补信息，同时过滤冗余噪声，从而产生更鲁棒和自适应的跨模态表示。该过程以RGB分支为例，形式化表示在公式(5)中：

其中，α, β, μ 是可学习参数。MLP和LN分别表示MLP层和层归一化。F(k)di f _v 表示相对于RGB模态的红外模态的差异特征。F′(k)i 指MFRM层第k次迭代的输出特征，而F(k+1)i 指MFRM层第k+1次迭代的输入特征。

3.4.重构为迭代关系图差异引导框架

为了实现鲁棒的特征学习，MFRM和DFFM被整合到一个统一的框架中，该框架被正式表述为迭代关系图差异引导的特征融合框架，命名为IRDFusion。在经过MFRM对F′v和F′t进行特征提炼后，Fv−t的目标是获得跨模态的对象感知互补特征，并消除共模背景和噪声信息。根据公式(1)-(5)，跨模态差异特征Fv−t可以在公式(8)中重新表述。通过一些公式代换，重构特征与注意力图C(v−t)2v的差异代表了RGB和红外注意力图之间的关系图差异，Fv−t也可以被视为可见和热分支之间从值（Value）特征重构的特征的差异。以可见模态为例，跨模态差异特征Fv−t以渐进的方式反馈，以细化F(k+1)v的特征，其中k表示迭代索引，如公式(9)所示。

其中，Av2v和At2t分别表示可见和热分支模态内特征的关系。值得一提的是，在对RGB图像分支进行特征提炼期间，热图像特征Ft是固定的。热图像分支Ft的提炼与公式(9)类似，为清晰起见此处省略。

3.5. 损失函数

在本工作中，我们采用CoDetr损失函数进行训练。CoDetr损失函数集成了多个组件，以优化分类和定位性能。主检测头（CoDINOHead）使用质量焦点损失（Quality Focal Loss）进行分类，有效解决了类别不平衡问题，并使用L1损失和GIoU损失分别进行边界框回归和定位精度。除了主检测头外，CoDetr还包括三个辅助检测头。RPN头应用交叉熵损失进行前景-背景分类，并利用L1损失来细化边界框提议。ROI头采用交叉熵损失进行类别预测，并采用GIoU损失来提高边界框回归的精度。Bbox头利用焦点损失（Focal Loss）进行分类，GIoU损失进行回归，交叉熵损失进行中心度预测，有助于提高检测精度。这种综合的损失设计在稳健的分类和精确的定位之间取得了平衡。辅助检测头补充了主检测头，进一步提升了整体检测性能。

5.结论

在本文中，我们提出了IRDFusion，这是一种新颖的多光谱目标检测框架，通过渐进式、细粒度的特征融合，有效整合了RGB和红外模态。该框架建立在两个互补的模块之上：互惠特征精炼模块（MFRM），它增强跨模态语义对齐并抑制冗余背景；以及差异特征反馈模块（DFFM），它动态提取模态间差异线索并迭代地将其反馈以指导融合。通过增强跨模态线索和引导差异特征，IRDFusion利用MFRM加强跨模态语义一致性，并利用DFFM迭代地提炼差异信息，逐步放大显著的物体信号，同时抑制共模噪声，从而产生高度判别性和良好对齐的特征表示。

在FLIR、LLVIP和M3FD数据集上进行的大量实验，包括消融研究、跨框架评估和可视化，证明了IRDFusion的鲁棒性和有效性。该方法在挑战性条件下（如低光照和复杂背景）持续优于最先进的方法。替换MFRM/DFFM模块的对比研究进一步验证了我们迭代差异融合策略的重要性。可视化结果表明，IRDFusion通过利用跨模态特征增强和差异线索的迭代指导，有效减少了误报和漏检。然而，该方法在检测小尺寸或严重遮挡的物体时仍表现出局限性。

尽管IRDFusion实现了显著的性能提升，但计算效率和实时能力仍是实际部署面临的挑战。未来的工作将集中在轻量化优化、多尺度特征增强和动态注意力机制上，以进一步提高效率和在严重遮挡下的检测性能。总体而言，这项工作为多光谱目标检测提供了一种稳健且通用的解决方案，突显了迭代差异引导的跨模态融合的价值。