🛰️ SkySense V2:统一多模态遥感基础模型(ICCV 2025)
基本信息
- 论文标题: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
- 作者: Yingying Zhang、Lixiang Ru、Kang Wu、Lei Yu、Lei Liang、Yansheng Li、Jingdong Chen
- 单位: 蚂蚁集团、武汉大学等
- 时间: 2026.03
- 链接: https://arxiv.org/pdf/2603.00988
一、引言
近年来,多模态遥感基础模型(MM-RSFM)快速发展,在城市规划、环境监测、灾害分析等任务中展现出强大能力。然而,现有方法大多仍然沿用“多模态 = 多 backbone”的设计范式,例如:
- RGB → Swin Transformer
- 多光谱(MS)→ ViT
- SAR → ViT
这种设计虽然直观,但存在两个核心问题:
- 参数冗余严重:多个 backbone 重复学习相似表征
- 跨模态融合困难:特征空间不统一
与此同时,现有预训练方法大多直接迁移自然图像中的自监督学习(SSL)策略,但忽略了遥感图像的关键特性:
遥感图像通常包含多个语义目标,且空间分布复杂,而非单一主体。
SkySense V2 正是在这一背景下提出,目标是构建一个统一、高效且适配遥感特性的多模态基础模型。
二、核心思路
SkySense V2 的核心可以概括为一句话:
用统一 Transformer Backbone 建模多模态数据,并重新设计适用于遥感的自监督学习机制。
其设计围绕三个关键目标展开:
- 统一性(Unified):一个 backbone 处理所有模态
- 可区分性(Disentangled):不同模态仍保留特性
- 语义一致性(Semantic Alignment):解决遥感多语义问题
三、模型架构设计
3.1 统一 Transformer Backbone
SkySense V2 使用一个共享参数的层次化 Transformer 编码器:
- 前两层:Swin Transformer(局部建模)
- 后两层:标准 Transformer(全局建模)
这种设计的动机是:
- 高分辨率阶段 → 局部注意力更高效
- 低分辨率阶段 → 全局注意力更有效
最终实现:
一个 backbone 同时处理 RGB、MS、SAR 等多模态数据
3.2 Adaptive Patch Merging(APM)
不同模态存在显著分辨率差异(GSD不同),直接共享 backbone 会导致对齐困难。
APM 的核心作用是:
- 对高分辨率数据(RGB)进行下采样
- 对低分辨率数据(MS/SAR)保持分辨率
本质上,它实现了:
跨模态 token 的空间对齐
使得不同模态可以在同一特征空间中进行融合。
3.3 Modality-specific Prompt Tokens
完全共享 backbone 会带来一个新问题:模态特征塌缩(modality collapse)。
为此,作者引入:
模态专属的可学习 Prompt Tokens
具体做法:
- 每种模态(RGB / MS / SAR)都有独立 prompt
- 在 Transformer 中通过 attention 与特征交互
作用:
- 保留模态差异
- 提升特征多样性
- 避免统一建模带来的信息损失
这一设计本质上是将 Prompt Learning 引入遥感多模态建模。
3.4 Mixture of Experts(MoE)
为了提升模型容量,SkySense V2 并没有简单增加宽度或深度,而是引入 MoE:
- 替换 Transformer 中的 FFN 层
- 使用 Top-1 routing(每个 token 选择一个 expert)
优势:
- 提升模型表达能力
- 控制计算开销
- 支持大规模扩展
这表明:
MoE 已开始从 NLP 扩展到视觉基础模型领域
四、预训练方法创新
4.1 问题:传统对比学习在遥感中失效
在自然图像中:
- 不同 view 通常包含同一主体(如一只狗)
但在遥感图像中:
- 不同 view 可能包含完全不同语义(建筑 / 森林 / 水体)
这会导致:
对比学习对齐错误语义,影响表示学习质量
4.2 Query-based Semantic Aggregation Contrastive Learning(QSACL)
为了解决这一问题,SkySense V2 提出了 QSACL。
核心思想:
用 query 聚合语义,再进行对比学习
具体流程:
- 引入多个 learnable queries
- 对不同视图特征进行 cross-attention
- 每个 query 聚合特定语义(如建筑、水体等)
- 在“相同 query”的特征之间做对比学习
即:
- 传统 CL:image-level 对齐
- QSACL:semantic-level 对齐
4.3 本质理解
QSACL 可以理解为:
- 在 SSL 中引入隐式语义槽(semantic slots)
- 类似机制:
- DETR queries
- Slot Attention
- Perceiver latent
其关键价值在于:
将遥感中的“多语义问题”显式建模
五、实验结果
SkySense V2 在:
- 16 个数据集
- 7 类任务(分类 / 检测 / 分割 / 变化检测等)
上进行了评估。
主要结论:
- 平均性能提升约+1.8%
- 相比 SkySense:
- 参数量从1.26B → 665M
- 同时性能更优
说明:
统一架构不仅更高效,而且更强
六、设计哲学总结
SkySense V2 的核心设计可以总结为以下几点:
1. 统一是趋势,但必须“带约束”
- 用共享 backbone 提升效率
- 用 Prompt 保持差异
2. 遥感任务需要“语义感知”的 SSL
- 自然图像方法不可直接迁移
- 必须考虑多语义分布
3. MoE 是基础模型扩展的重要方向
- 不仅适用于 NLP
- 在视觉任务中同样有效
4. Prompt 正在成为通用建模工具
从 NLP 到视觉再到遥感:
Prompt 已成为“低成本引入先验”的统一方式
七、对多模态遥感研究的启发
该工作对当前多模态遥感大模型设计具有重要参考价值:
(1)统一架构设计
- 用单 backbone 替代多分支结构
- 提高参数利用率
(2)模态建模方式
- Prompt 可作为 modality adapter
- 比纯结构分离更轻量
(3)对齐机制
- Query-based 对齐优于传统对比学习
- 更适合复杂语义场景
(4)模型扩展
- MoE 提供了一种高效 scaling 路径
八、总结
SkySense V2 的核心贡献在于:
将多模态遥感问题统一为“共享表征 + 语义对齐”的建模问题。
通过:
- Unified Backbone
- Modality Prompt
- QSACL
- MoE
构建了一套完整的多模态遥感基础模型范式。
这一思路对于后续遥感大模型的发展,具有较强的参考价值。