news 2026/4/16 10:44:49

CtxMIM:面向遥感影像理解的上下文增强掩码图像建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CtxMIM:面向遥感影像理解的上下文增强掩码图像建模

文章目录

  • 创新点
  • 2. 方法
    • 2.1. 概述
    • 2.2. 掩码图像块的重建
    • 2.3. 上下文增强分支
    • 2.3. 训练目标
  • 3. 实验
    • 3.1. 土地覆盖分类
    • 3.2. 语义分割
    • 3.3. 实例分割
    • 3.4. 消融实验
  • 4. 结论

论文:https://dl.acm.org/doi/abs/10.1145/3769084
代码:
期刊:ToMM
年份:2025

创新点

1.提出一种新颖的上下文增强掩码图像建模方法(CtxMIM),这是一种简单的自监督学习框架,可学习稳健且具有迁移性的表征,用于高效遥感影像分析。
2.将原始影像块作为重建模板,并引入上下文增强生成分支以提供上下文信息。

2. 方法

2.1. 概述

高目标密度给遥感理解中的自监督学习范式带来了挑战,主要体现在以下两个方面:
(1) 对比学习中,从同一幅影像增强生成正样本对时,会出现正样本对匹配错误(如图 1(a) 列所示);
(2) 重建学习中,随机掩码策略会导致上下文信息缺失(如图 1 (b) 列所示)。

图1. 遥感图像中的高目标密度,导致对比学习中正样本对不匹配或重建学习中上下文信息缺失

针对这一问题,我们提出 CtxMIM 方法,这是一种创新的基于重建学习的上下文增强自监督表征学习框架。
如图 2所示,CtxMIM 采用非对称孪生网络架构,包含重建分支和上下文增强生成分支,通过掩码图像建模实现表征学习。
考虑到遥感影像目标分布的不均匀特性,我们创新性地采用原始图像块作为重建模板,而非直接丢弃掩码区域。为弥补随机掩码可能导致的上下文信息缺失,我们设计了上下文增强生成分支,通过提供有效的上下文信息来增强语义推理能力。

图2. CtxMIM示意图,这是一种简单高效的遥感任务预训练框架。该框架通过引入创新的上下文增强生成分支,在图像重建过程中利用上下文一致性约束(LCc)提供语境信息,将原始图像块作为重建模板。CtxMIM能学习具有高度泛化性和迁移性的特征表示,可应用于多种下游任务(如图像级、对象级和像素级任务)。

2.2. 掩码图像块的重建

在重建阶段,CtxMIM旨在通过恢复掩码图像块来学习局部细粒度特征。给定输入图像x ∈ R C × H × W x∈R^{C×H×W}xRC×H×W,CtxMIM首先将x xx重塑为图像序列块x p ∈ R N × P 2 C x_p∈R^{N×P^2C}xpRN×P2C,其中H HHW WWC CC分别表示图像高度、宽度和通道数,P PP为每个图像块的尺寸(即高度和宽度),N = ( H / P ) ⋅ ( W / P ) N=(H/P)·(W/P)N=(H/P)(W/P)为图像块数量。随后进行块级掩码操作随机遮蔽部分图像块,并通过块嵌入操作编码每个图像块获得新序列输入x ^ p x̂^px^p。接着,编码器f θ f_θfθ接收序列输入x ^ p x̂_px^p提取潜在表征h ^ p ĥ^ph^p,最终,解码器g θ g_θgθ基于潜在表征重建被遮蔽块的像素值y ^ p ŷ^py^p
本文采用Swin Transformer[55]作为特征编码器f s w i n f_{swin}fswin,并遵循SimMIM[2]使用轻量级预测头g m l p g_{mlp}gmlp作为解码器输出被遮蔽块的原始像素值,其公式表示为:
(1)
y ^ p = g m l p ( f s w i n ( x ^ p ) ⊙ ∣ ∣ M ( x ^ i p ) ŷ^p = g_{mlp}(f_swin(x̂_p) ⊙ ||_M(x̂^p_i)y^p=gmlp(fswin(x^p)M(x^ip)
其中∣ ∣ M ( ⋅ ) ||_M(·)M()为指示函数——当图像块x ^ i p x̂^p_ix^ip被遮蔽时取值为1,否则为0;⊙表示逐元素乘积运算。

2.3. 上下文增强分支

某些小型地表覆盖可能被完全遮蔽,导致重建过程中关键上下文信息缺失。为解决该问题,CtxMIN引入上下文增强生成分支来提供上下文信息。如图2所示,该分支将图像块x p x^pxp输入共享编码器f θ f_θfθ,提取蕴含丰富上下文信息的潜在表征h p h^php,随后通过相同解码器g θ g_θgθ预测原始像素y p y^pyp。该分支流程定义为:
(2)
y p = g m l p ( f s v i n ( x p ) ⊙ ∣ ∣ M ( x i p ) y^p = gₘₗₚ(fₛᵥᵢₙ(x^p) ⊙ ||_M(x_i^p)yp=gmlp(fsvin(xp)M(xip)

其中∣ ∣ M ( ⋅ ) ||_M(·)M()和⊙操作与重建分支保持一致。
最终,上下文增强生成分支以y p y^pyp为模板,通过提供有意义的上下文信息,引导重建分支模仿特征提取并学习语义外推能力。

2.3. 训练目标

CtxMIM首先通过最小化掩码补丁原始像素值x ∣ M x|MxM与重建值y R e ∣ M y^{Re}|MyReM之间的距离实现重建学习目标,计算公式如下:
(3)
L R e = ∥ y R e ∣ M − x ∣ M ∥ N M L_{Re} = \frac{∥y^{Re}|{M} − x|{M}∥}{N_M}LRe=NMyReMxM
其中N M N_MNM代表掩码像素数量,∥ ⋅ ∥ ∥·∥为计算y R e ∣ M y^{Re}|MyReMx ∣ M x|MxM相似度的距离函数。本文采用ℓ 1 ℓ11损失函数计算L R e L^{Re}LRe

在上下文增强生成分支中,CtxMIM通过计算预测像素值Y P r Y^{Pr}YPr与原始像素值X XX之间的预测损失L P r L_{Pr}LPr(类似公式3)学习上下文信息。随后通过上下文一致性损失L C c L_{Cc}LCc最大化y R e ∣ M y^{Re}|MyReM与对应部分y P r ∣ M y^{Pr}|MyPrM的相似性:
(4)
L C c = D i s t ( y R e ∣ M − y P r ∣ M ) L_{Cc} = Dist(y^{Re}|M −y^{Pr}|M)LCc=Dist(yReMyPrM)
D i s t ( ⋅ ) Dist(·)Dist()是指引模型学习优质上下文信息的相似性函数,本文采用ℓ 1 ℓ11损失。该损失函数能缓解信息缺失导致的预训练收敛不稳定问题。

最终联合训练目标由公式5计算:
(5)
L = L R e + L P r + L C c L = L_{Re} + L_{Pr} + L_{Cc}L=LRe+LPr+LCc
L R e L_{Re}LReL P r L_{Pr}LPr的梯度沿各自分支反向传播。L C c L_{Cc}LCc梯度仅向重建分支反向传播,促使编码器通过提供有意义的上下文信息来模仿特征提取和学习语义外推。
停止梯度操作可避免平凡常数解。通过多任务学习预训练,CtxMIM最终获得富含语义与局部信息的表征。

3. 实验

实验中,“Random Init.” 和 “ImageNet Pre.” 分别表示不同骨干网络采用随机初始化和 ImageNet 预训练初始化。SatLas [59] 作为遥感监督学习方法进行对比。

3.1. 土地覆盖分类

采用两个土地覆盖分类数据集:
(1) EuroSAT [10]
(2) NWPU-RESISC45 [11]

表1. 欧空局卫星和NWPU-RESISC45数据集在土地覆盖分类任务上的TOP-1准确率。CTXMIM方法取得了最佳性能表现。

3.2. 语义分割

本文采用 SpaceNet(Rio)数据集 [13] 进行语义分割任务。该数据集包含 6940 幅卫星图像,带有二元建筑掩码。

表2. 在SpaceNet(里约)语义分割任务上的平均交并比(mIoU)和平均准确率(mAcc)。我们的方法在监督学习和自监督学习方面均显著提升了性能。

3.3. 实例分割

表3. DOTA目标检测任务中不同交并比阈值下的平均精度(AP)与平均召回率(AR)。
由AP/AP75和AR/AR75计算的F1/F175指标更全面/准确地衡量了模型性能。

3.4. 消融实验

表5.消融研究。LCC、SS、OD和IS分别表示土地覆盖分类、语义分割、目标检测和实例分割。“-C-E”表示从CTXMIM中移除了上下文增强生成分支。

4. 结论

本文提出 CtxMIM,一种简单高效的遥感表征学习掩码图像建模方法。
CtxMIM 基于以下洞察:遥感影像的高目标密度导致重建学习中缺失上下文信息,显著阻碍语义推断。因此,CtxMIM 利用原始图像块,引入上下文增强生成分支,通过上下文一致性约束提供上下文信息。最后,本文在包含 128 万幅图像、地形地貌丰富的大规模无标记遥感数据集上训练 CtxMIM。在土地覆盖分类、语义分割、目标检测和实例分割任务上的大量实验表明,CtxMIM 学习到的特征具有高泛化性和迁移性,性能显著优于监督学习和自监督学习方法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 17:07:31

3步搞定PDFKit跨平台字体兼容性:告别乱码困扰的实用指南

3步搞定PDFKit跨平台字体兼容性:告别乱码困扰的实用指南 【免费下载链接】pdfkit 项目地址: https://gitcode.com/gh_mirrors/pdf/pdfkit 在Windows上完美显示的PDF文档,到了macOS或Linux服务器却出现字体乱码?这是Node.js PDFKit开发…

作者头像 李华
网站建设 2026/4/16 12:15:13

电商爬虫实战:解决大规模数据采集时的超时问题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商价格监控爬虫,专门处理ReadTimeoutError。要求实现:1) 自动轮换代理IP池避免封禁 2) 指数退避重试机制 3) 动态超时时间调整 4) 失败请求日志记…

作者头像 李华
网站建设 2026/4/16 1:49:17

用户体验测试:功能与界面并重

从功能正确到体验卓越的范式转移 随着数字化转型进程加速,用户对软件产品的期望早已超越“可用性”基础层面,转而追求“易用性”“情感共鸣”与“场景适配”的高阶体验。根据Gartner近年发布的行业报告,约74%的用户流失案例源于非功能性体验…

作者头像 李华
网站建设 2026/4/16 12:15:09

前端web worker的使用,零基础入门到精通,收藏这篇就够了

JavaScript是单线程的编程语言,当遇到需要处理大量数据的逻辑计算时需要等待代码按照顺序运行,这会导致用户需要等待这段代码执行完后才能对页面进行操作(UI 交互)严重的可能会前端页面卡死的情况发生。 但有一种方式可以避免这种…

作者头像 李华
网站建设 2026/4/16 8:58:10

3分钟搞定!Chrome浏览器账号登录失败的终极修复指南

3分钟搞定!Chrome浏览器账号登录失败的终极修复指南 【免费下载链接】在Chrome上谷歌账号无法登录的解决办法 遇到Chrome浏览器上谷歌账号登录困难?本开源项目为您提供了一种简单有效的解决方案。通过几个简单的步骤,您可以将特定扩展程序添加…

作者头像 李华
网站建设 2026/4/16 17:26:47

Yaak命令行高效使用指南:从入门到精通的实用技巧

Yaak命令行高效使用指南:从入门到精通的实用技巧 【免费下载链接】yaak The most intuitive desktop API client. Organize and execute REST, GraphQL, WebSockets, Server Sent Events, and gRPC 🦬 项目地址: https://gitcode.com/GitHub_Trending/…

作者头像 李华