文章目录
- 创新点
- 2. 方法
- 2.1. 概述
- 2.2. 掩码图像块的重建
- 2.3. 上下文增强分支
- 2.3. 训练目标
- 3. 实验
- 3.1. 土地覆盖分类
- 3.2. 语义分割
- 3.3. 实例分割
- 3.4. 消融实验
- 4. 结论
论文:https://dl.acm.org/doi/abs/10.1145/3769084
代码:
期刊:ToMM
年份:2025
创新点
1.提出一种新颖的上下文增强掩码图像建模方法(CtxMIM),这是一种简单的自监督学习框架,可学习稳健且具有迁移性的表征,用于高效遥感影像分析。
2.将原始影像块作为重建模板,并引入上下文增强生成分支以提供上下文信息。
2. 方法
2.1. 概述
高目标密度给遥感理解中的自监督学习范式带来了挑战,主要体现在以下两个方面:
(1) 对比学习中,从同一幅影像增强生成正样本对时,会出现正样本对匹配错误(如图 1(a) 列所示);
(2) 重建学习中,随机掩码策略会导致上下文信息缺失(如图 1 (b) 列所示)。
图1. 遥感图像中的高目标密度,导致对比学习中正样本对不匹配或重建学习中上下文信息缺失
针对这一问题,我们提出 CtxMIM 方法,这是一种创新的基于重建学习的上下文增强自监督表征学习框架。
如图 2所示,CtxMIM 采用非对称孪生网络架构,包含重建分支和上下文增强生成分支,通过掩码图像建模实现表征学习。
考虑到遥感影像目标分布的不均匀特性,我们创新性地采用原始图像块作为重建模板,而非直接丢弃掩码区域。为弥补随机掩码可能导致的上下文信息缺失,我们设计了上下文增强生成分支,通过提供有效的上下文信息来增强语义推理能力。
图2. CtxMIM示意图,这是一种简单高效的遥感任务预训练框架。该框架通过引入创新的上下文增强生成分支,在图像重建过程中利用上下文一致性约束(LCc)提供语境信息,将原始图像块作为重建模板。CtxMIM能学习具有高度泛化性和迁移性的特征表示,可应用于多种下游任务(如图像级、对象级和像素级任务)。
2.2. 掩码图像块的重建
在重建阶段,CtxMIM旨在通过恢复掩码图像块来学习局部细粒度特征。给定输入图像x ∈ R C × H × W x∈R^{C×H×W}x∈RC×H×W,CtxMIM首先将x xx重塑为图像序列块x p ∈ R N × P 2 C x_p∈R^{N×P^2C}xp∈RN×P2C,其中H HH、W WW、C CC分别表示图像高度、宽度和通道数,P PP为每个图像块的尺寸(即高度和宽度),N = ( H / P ) ⋅ ( W / P ) N=(H/P)·(W/P)N=(H/P)⋅(W/P)为图像块数量。随后进行块级掩码操作随机遮蔽部分图像块,并通过块嵌入操作编码每个图像块获得新序列输入x ^ p x̂^px^p。接着,编码器f θ f_θfθ接收序列输入x ^ p x̂_px^p提取潜在表征h ^ p ĥ^ph^p,最终,解码器g θ g_θgθ基于潜在表征重建被遮蔽块的像素值y ^ p ŷ^py^p。
本文采用Swin Transformer[55]作为特征编码器f s w i n f_{swin}fswin,并遵循SimMIM[2]使用轻量级预测头g m l p g_{mlp}gmlp作为解码器输出被遮蔽块的原始像素值,其公式表示为:
(1)
y ^ p = g m l p ( f s w i n ( x ^ p ) ⊙ ∣ ∣ M ( x ^ i p ) ŷ^p = g_{mlp}(f_swin(x̂_p) ⊙ ||_M(x̂^p_i)y^p=gmlp(fswin(x^p)⊙∣∣M(x^ip)
其中∣ ∣ M ( ⋅ ) ||_M(·)∣∣M(⋅)为指示函数——当图像块x ^ i p x̂^p_ix^ip被遮蔽时取值为1,否则为0;⊙表示逐元素乘积运算。
2.3. 上下文增强分支
某些小型地表覆盖可能被完全遮蔽,导致重建过程中关键上下文信息缺失。为解决该问题,CtxMIN引入上下文增强生成分支来提供上下文信息。如图2所示,该分支将图像块x p x^pxp输入共享编码器f θ f_θfθ,提取蕴含丰富上下文信息的潜在表征h p h^php,随后通过相同解码器g θ g_θgθ预测原始像素y p y^pyp。该分支流程定义为:
(2)
y p = g m l p ( f s v i n ( x p ) ⊙ ∣ ∣ M ( x i p ) y^p = gₘₗₚ(fₛᵥᵢₙ(x^p) ⊙ ||_M(x_i^p)yp=gmlp(fsvin(xp)⊙∣∣M(xip)
其中∣ ∣ M ( ⋅ ) ||_M(·)∣∣M(⋅)和⊙操作与重建分支保持一致。
最终,上下文增强生成分支以y p y^pyp为模板,通过提供有意义的上下文信息,引导重建分支模仿特征提取并学习语义外推能力。
2.3. 训练目标
CtxMIM首先通过最小化掩码补丁原始像素值x ∣ M x|Mx∣M与重建值y R e ∣ M y^{Re}|MyRe∣M之间的距离实现重建学习目标,计算公式如下:
(3)
L R e = ∥ y R e ∣ M − x ∣ M ∥ N M L_{Re} = \frac{∥y^{Re}|{M} − x|{M}∥}{N_M}LRe=NM∥yRe∣M−x∣M∥
其中N M N_MNM代表掩码像素数量,∥ ⋅ ∥ ∥·∥∥⋅∥为计算y R e ∣ M y^{Re}|MyRe∣M与x ∣ M x|Mx∣M相似度的距离函数。本文采用ℓ 1 ℓ1ℓ1损失函数计算L R e L^{Re}LRe。
在上下文增强生成分支中,CtxMIM通过计算预测像素值Y P r Y^{Pr}YPr与原始像素值X XX之间的预测损失L P r L_{Pr}LPr(类似公式3)学习上下文信息。随后通过上下文一致性损失L C c L_{Cc}LCc最大化y R e ∣ M y^{Re}|MyRe∣M与对应部分y P r ∣ M y^{Pr}|MyPr∣M的相似性:
(4)
L C c = D i s t ( y R e ∣ M − y P r ∣ M ) L_{Cc} = Dist(y^{Re}|M −y^{Pr}|M)LCc=Dist(yRe∣M−yPr∣M)
D i s t ( ⋅ ) Dist(·)Dist(⋅)是指引模型学习优质上下文信息的相似性函数,本文采用ℓ 1 ℓ1ℓ1损失。该损失函数能缓解信息缺失导致的预训练收敛不稳定问题。
最终联合训练目标由公式5计算:
(5)
L = L R e + L P r + L C c L = L_{Re} + L_{Pr} + L_{Cc}L=LRe+LPr+LCc
L R e L_{Re}LRe与L P r L_{Pr}LPr的梯度沿各自分支反向传播。L C c L_{Cc}LCc梯度仅向重建分支反向传播,促使编码器通过提供有意义的上下文信息来模仿特征提取和学习语义外推。
停止梯度操作可避免平凡常数解。通过多任务学习预训练,CtxMIM最终获得富含语义与局部信息的表征。
3. 实验
实验中,“Random Init.” 和 “ImageNet Pre.” 分别表示不同骨干网络采用随机初始化和 ImageNet 预训练初始化。SatLas [59] 作为遥感监督学习方法进行对比。
3.1. 土地覆盖分类
采用两个土地覆盖分类数据集:
(1) EuroSAT [10]
(2) NWPU-RESISC45 [11]
表1. 欧空局卫星和NWPU-RESISC45数据集在土地覆盖分类任务上的TOP-1准确率。CTXMIM方法取得了最佳性能表现。
3.2. 语义分割
本文采用 SpaceNet(Rio)数据集 [13] 进行语义分割任务。该数据集包含 6940 幅卫星图像,带有二元建筑掩码。
表2. 在SpaceNet(里约)语义分割任务上的平均交并比(mIoU)和平均准确率(mAcc)。我们的方法在监督学习和自监督学习方面均显著提升了性能。
3.3. 实例分割
表3. DOTA目标检测任务中不同交并比阈值下的平均精度(AP)与平均召回率(AR)。
由AP/AP75和AR/AR75计算的F1/F175指标更全面/准确地衡量了模型性能。
3.4. 消融实验
表5.消融研究。LCC、SS、OD和IS分别表示土地覆盖分类、语义分割、目标检测和实例分割。“-C-E”表示从CTXMIM中移除了上下文增强生成分支。
4. 结论
本文提出 CtxMIM,一种简单高效的遥感表征学习掩码图像建模方法。
CtxMIM 基于以下洞察:遥感影像的高目标密度导致重建学习中缺失上下文信息,显著阻碍语义推断。因此,CtxMIM 利用原始图像块,引入上下文增强生成分支,通过上下文一致性约束提供上下文信息。最后,本文在包含 128 万幅图像、地形地貌丰富的大规模无标记遥感数据集上训练 CtxMIM。在土地覆盖分类、语义分割、目标检测和实例分割任务上的大量实验表明,CtxMIM 学习到的特征具有高泛化性和迁移性,性能显著优于监督学习和自监督学习方法。