news 2026/5/6 5:18:31

蚂蚁+武大ICCV 2025 | SkySense V2:统一多模态遥感基础模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
蚂蚁+武大ICCV 2025 | SkySense V2:统一多模态遥感基础模型

🛰️ SkySense V2:统一多模态遥感基础模型(ICCV 2025)

基本信息

  • 论文标题: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
  • 作者: Yingying Zhang、Lixiang Ru、Kang Wu、Lei Yu、Lei Liang、Yansheng Li、Jingdong Chen
  • 单位: 蚂蚁集团、武汉大学等
  • 时间: 2026.03
  • 链接: https://arxiv.org/pdf/2603.00988

一、引言

近年来,多模态遥感基础模型(MM-RSFM)快速发展,在城市规划、环境监测、灾害分析等任务中展现出强大能力。然而,现有方法大多仍然沿用“多模态 = 多 backbone”的设计范式,例如:

  • RGB → Swin Transformer
  • 多光谱(MS)→ ViT
  • SAR → ViT

这种设计虽然直观,但存在两个核心问题:

  1. 参数冗余严重:多个 backbone 重复学习相似表征
  2. 跨模态融合困难:特征空间不统一

与此同时,现有预训练方法大多直接迁移自然图像中的自监督学习(SSL)策略,但忽略了遥感图像的关键特性:

遥感图像通常包含多个语义目标,且空间分布复杂,而非单一主体。

SkySense V2 正是在这一背景下提出,目标是构建一个统一、高效且适配遥感特性的多模态基础模型


二、核心思路

SkySense V2 的核心可以概括为一句话:

用统一 Transformer Backbone 建模多模态数据,并重新设计适用于遥感的自监督学习机制。

其设计围绕三个关键目标展开:

  • 统一性(Unified):一个 backbone 处理所有模态
  • 可区分性(Disentangled):不同模态仍保留特性
  • 语义一致性(Semantic Alignment):解决遥感多语义问题

三、模型架构设计

3.1 统一 Transformer Backbone

SkySense V2 使用一个共享参数的层次化 Transformer 编码器

  • 前两层:Swin Transformer(局部建模)
  • 后两层:标准 Transformer(全局建模)

这种设计的动机是:

  • 高分辨率阶段 → 局部注意力更高效
  • 低分辨率阶段 → 全局注意力更有效

最终实现:

一个 backbone 同时处理 RGB、MS、SAR 等多模态数据


3.2 Adaptive Patch Merging(APM)

不同模态存在显著分辨率差异(GSD不同),直接共享 backbone 会导致对齐困难。

APM 的核心作用是:

  • 对高分辨率数据(RGB)进行下采样
  • 对低分辨率数据(MS/SAR)保持分辨率

本质上,它实现了:

跨模态 token 的空间对齐

使得不同模态可以在同一特征空间中进行融合。


3.3 Modality-specific Prompt Tokens

完全共享 backbone 会带来一个新问题:模态特征塌缩(modality collapse)

为此,作者引入:

模态专属的可学习 Prompt Tokens

具体做法:

  • 每种模态(RGB / MS / SAR)都有独立 prompt
  • 在 Transformer 中通过 attention 与特征交互

作用:

  • 保留模态差异
  • 提升特征多样性
  • 避免统一建模带来的信息损失

这一设计本质上是将 Prompt Learning 引入遥感多模态建模。


3.4 Mixture of Experts(MoE)

为了提升模型容量,SkySense V2 并没有简单增加宽度或深度,而是引入 MoE:

  • 替换 Transformer 中的 FFN 层
  • 使用 Top-1 routing(每个 token 选择一个 expert)

优势:

  • 提升模型表达能力
  • 控制计算开销
  • 支持大规模扩展

这表明:

MoE 已开始从 NLP 扩展到视觉基础模型领域


四、预训练方法创新

4.1 问题:传统对比学习在遥感中失效

在自然图像中:

  • 不同 view 通常包含同一主体(如一只狗)

但在遥感图像中:

  • 不同 view 可能包含完全不同语义(建筑 / 森林 / 水体)

这会导致:

对比学习对齐错误语义,影响表示学习质量


4.2 Query-based Semantic Aggregation Contrastive Learning(QSACL)

为了解决这一问题,SkySense V2 提出了 QSACL。

核心思想:

用 query 聚合语义,再进行对比学习

具体流程:

  1. 引入多个 learnable queries
  2. 对不同视图特征进行 cross-attention
  3. 每个 query 聚合特定语义(如建筑、水体等)
  4. 在“相同 query”的特征之间做对比学习

即:

  • 传统 CL:image-level 对齐
  • QSACL:semantic-level 对齐

4.3 本质理解

QSACL 可以理解为:

  • 在 SSL 中引入隐式语义槽(semantic slots)
  • 类似机制:
    • DETR queries
    • Slot Attention
    • Perceiver latent

其关键价值在于:

将遥感中的“多语义问题”显式建模


五、实验结果

SkySense V2 在:

  • 16 个数据集
  • 7 类任务(分类 / 检测 / 分割 / 变化检测等)

上进行了评估。

主要结论:

  • 平均性能提升约+1.8%
  • 相比 SkySense:
    • 参数量从1.26B → 665M
    • 同时性能更优

说明:

统一架构不仅更高效,而且更强


六、设计哲学总结

SkySense V2 的核心设计可以总结为以下几点:

1. 统一是趋势,但必须“带约束”

  • 用共享 backbone 提升效率
  • 用 Prompt 保持差异

2. 遥感任务需要“语义感知”的 SSL

  • 自然图像方法不可直接迁移
  • 必须考虑多语义分布

3. MoE 是基础模型扩展的重要方向

  • 不仅适用于 NLP
  • 在视觉任务中同样有效

4. Prompt 正在成为通用建模工具

从 NLP 到视觉再到遥感:

Prompt 已成为“低成本引入先验”的统一方式


七、对多模态遥感研究的启发

该工作对当前多模态遥感大模型设计具有重要参考价值:

(1)统一架构设计

  • 用单 backbone 替代多分支结构
  • 提高参数利用率

(2)模态建模方式

  • Prompt 可作为 modality adapter
  • 比纯结构分离更轻量

(3)对齐机制

  • Query-based 对齐优于传统对比学习
  • 更适合复杂语义场景

(4)模型扩展

  • MoE 提供了一种高效 scaling 路径

八、总结

SkySense V2 的核心贡献在于:

将多模态遥感问题统一为“共享表征 + 语义对齐”的建模问题。

通过:

  • Unified Backbone
  • Modality Prompt
  • QSACL
  • MoE

构建了一套完整的多模态遥感基础模型范式。

这一思路对于后续遥感大模型的发展,具有较强的参考价值。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 13:50:41

别让科研白费力:你用R语言做医学分析

辛辛苦苦收集了临床数据、整理好实验样本,满心想着发篇高分论文,却卡在数据分析这一步,寸步难行。 想用专业的R语言,却发现教材全是晦涩代码、枯燥公式,跟医学完全不搭边;对着屏幕熬到深夜,装包…

作者头像 李华
网站建设 2026/4/11 21:12:23

AI开发-python-langchain框架(--串行流程 )舷

一、前言:什么是 OFA VQA 模型? OFA(One For All)是字节跳动提出的多模态预训练模型,支持视觉问答、图像描述、图像编辑等多种任务,其中视觉问答(VQA)是最常用的功能之一——输入一张…

作者头像 李华
网站建设 2026/4/11 16:36:43

Asian Beauty Z-Image Turbo 进阶教程:利用ComfyUI构建可视化工作流

Asian Beauty Z-Image Turbo 进阶教程:利用ComfyUI构建可视化工作流 如果你已经玩过一些基础的图像生成模型,可能会觉得每次都要写一大段提示词、反复调整参数有点麻烦。特别是当你想复现某个特定风格,或者把一套复杂的修图流程固定下来时&a…

作者头像 李华