蚂蚁+武大ICCV 2025 | SkySense V2：统一多模态遥感基础模型-编程阁

🛰️ SkySense V2：统一多模态遥感基础模型（ICCV 2025）

基本信息

论文标题: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
作者: Yingying Zhang、Lixiang Ru、Kang Wu、Lei Yu、Lei Liang、Yansheng Li、Jingdong Chen
单位: 蚂蚁集团、武汉大学等
时间: 2026.03
链接: https://arxiv.org/pdf/2603.00988

一、引言

近年来，多模态遥感基础模型（MM-RSFM）快速发展，在城市规划、环境监测、灾害分析等任务中展现出强大能力。然而，现有方法大多仍然沿用“多模态 = 多 backbone”的设计范式，例如：

RGB → Swin Transformer
多光谱（MS）→ ViT
SAR → ViT

这种设计虽然直观，但存在两个核心问题：

参数冗余严重：多个 backbone 重复学习相似表征
跨模态融合困难：特征空间不统一

与此同时，现有预训练方法大多直接迁移自然图像中的自监督学习（SSL）策略，但忽略了遥感图像的关键特性：

遥感图像通常包含多个语义目标，且空间分布复杂，而非单一主体。

SkySense V2 正是在这一背景下提出，目标是构建一个统一、高效且适配遥感特性的多模态基础模型。

二、核心思路

SkySense V2 的核心可以概括为一句话：

用统一 Transformer Backbone 建模多模态数据，并重新设计适用于遥感的自监督学习机制。

其设计围绕三个关键目标展开：

统一性（Unified）：一个 backbone 处理所有模态
可区分性（Disentangled）：不同模态仍保留特性
语义一致性（Semantic Alignment）：解决遥感多语义问题

三、模型架构设计

3.1 统一 Transformer Backbone

SkySense V2 使用一个共享参数的层次化 Transformer 编码器：

前两层：Swin Transformer（局部建模）
后两层：标准 Transformer（全局建模）

这种设计的动机是：

高分辨率阶段 → 局部注意力更高效
低分辨率阶段 → 全局注意力更有效

最终实现：

一个 backbone 同时处理 RGB、MS、SAR 等多模态数据

3.2 Adaptive Patch Merging（APM）

不同模态存在显著分辨率差异（GSD不同），直接共享 backbone 会导致对齐困难。

APM 的核心作用是：

对高分辨率数据（RGB）进行下采样
对低分辨率数据（MS/SAR）保持分辨率

本质上，它实现了：

跨模态 token 的空间对齐

使得不同模态可以在同一特征空间中进行融合。

3.3 Modality-specific Prompt Tokens

完全共享 backbone 会带来一个新问题：模态特征塌缩（modality collapse）。

为此，作者引入：

模态专属的可学习 Prompt Tokens

具体做法：

每种模态（RGB / MS / SAR）都有独立 prompt
在 Transformer 中通过 attention 与特征交互

作用：

保留模态差异
提升特征多样性
避免统一建模带来的信息损失

这一设计本质上是将 Prompt Learning 引入遥感多模态建模。

3.4 Mixture of Experts（MoE）

为了提升模型容量，SkySense V2 并没有简单增加宽度或深度，而是引入 MoE：

替换 Transformer 中的 FFN 层
使用 Top-1 routing（每个 token 选择一个 expert）

优势：

提升模型表达能力
控制计算开销
支持大规模扩展

这表明：

MoE 已开始从 NLP 扩展到视觉基础模型领域

四、预训练方法创新

4.1 问题：传统对比学习在遥感中失效

在自然图像中：

不同 view 通常包含同一主体（如一只狗）

但在遥感图像中：

不同 view 可能包含完全不同语义（建筑 / 森林 / 水体）

这会导致：

对比学习对齐错误语义，影响表示学习质量

4.2 Query-based Semantic Aggregation Contrastive Learning（QSACL）

为了解决这一问题，SkySense V2 提出了 QSACL。

核心思想：

用 query 聚合语义，再进行对比学习

具体流程：

引入多个 learnable queries
对不同视图特征进行 cross-attention
每个 query 聚合特定语义（如建筑、水体等）
在“相同 query”的特征之间做对比学习

即：

传统 CL：image-level 对齐
QSACL：semantic-level 对齐

4.3 本质理解

QSACL 可以理解为：

在 SSL 中引入隐式语义槽（semantic slots）
类似机制：
- DETR queries
- Slot Attention
- Perceiver latent

其关键价值在于：

将遥感中的“多语义问题”显式建模

五、实验结果

SkySense V2 在：

16 个数据集
7 类任务（分类 / 检测 / 分割 / 变化检测等）

上进行了评估。

主要结论：

平均性能提升约+1.8%
相比 SkySense：
- 参数量从1.26B → 665M
- 同时性能更优

说明：

统一架构不仅更高效，而且更强

六、设计哲学总结

SkySense V2 的核心设计可以总结为以下几点：

1. 统一是趋势，但必须“带约束”

用共享 backbone 提升效率
用 Prompt 保持差异

2. 遥感任务需要“语义感知”的 SSL

自然图像方法不可直接迁移
必须考虑多语义分布

3. MoE 是基础模型扩展的重要方向

不仅适用于 NLP
在视觉任务中同样有效

4. Prompt 正在成为通用建模工具

从 NLP 到视觉再到遥感：

Prompt 已成为“低成本引入先验”的统一方式

七、对多模态遥感研究的启发

该工作对当前多模态遥感大模型设计具有重要参考价值：

（1）统一架构设计

用单 backbone 替代多分支结构
提高参数利用率

（2）模态建模方式

Prompt 可作为 modality adapter
比纯结构分离更轻量

（3）对齐机制

Query-based 对齐优于传统对比学习
更适合复杂语义场景

（4）模型扩展

MoE 提供了一种高效 scaling 路径

八、总结

SkySense V2 的核心贡献在于：

将多模态遥感问题统一为“共享表征 + 语义对齐”的建模问题。

通过：

Unified Backbone
Modality Prompt
QSACL
MoE

构建了一套完整的多模态遥感基础模型范式。

这一思路对于后续遥感大模型的发展，具有较强的参考价值。

蚂蚁+武大ICCV 2025 | SkySense V2：统一多模态遥感基础模型

🛰️ SkySense V2：统一多模态遥感基础模型（ICCV 2025）

基本信息