【西安交通大学-曹相湧组-arXiv25】SegEarth-R2：迈向遥感图像的全面语言引导分割-编程阁

文章：SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

代码：https://github.com/earth-insights/SegEarth-R2

单位：西安交通大学

Attention：The LaSeRS dataset will be used as part of theAIRS 2026contest, thus its release is delayed. Stay tuned! Important information will be updated on https://github.com/earth-insights/SegEarth-R2

一、问题背景：现有AI“听不懂”复杂遥感指令

遥感图像的语言引导分割技术，是灾害响应、环境监测、城市规划等领域的核心支撑，它需要AI将自然语言指令精准映射到像素级的目标区域。但长期以来，这项技术面临四大关键瓶颈：

粒度层级复杂：从“飞机”这类大类到“飞机发动机”等部件级细分，目标尺度跨度极大，现有模型难以兼顾；
多目标并行难：单一指令需同时识别多个目标（如“找避难所+避危险建筑”），传统模型只能逐一处理；
隐含意图难推断：指令常包含隐含逻辑（如“地震逃生方向”需推断“开阔地=安全”），而非直接标注类别；
语言风格多变：指令可长可短、可详可略，模型鲁棒性不足。

更关键的是，现有数据集多聚焦简单单目标场景，缺乏覆盖上述复杂维度的训练资源，导致AI在真实场景中“水土不服”，难以落地实用。

二、方法创新：两大核心突破，兼顾全面性与高效性

为破解上述难题，研究团队推出“数据集+模型”的完整解决方案，双管齐下突破技术瓶颈：

1. 首个全能数据集LaSeRS：覆盖四大复杂维度

LaSeRS是首个专门针对遥感复杂语言引导分割的大规模数据集，堪称AI的“全能训练题库”：

规模庞大：包含40396张高质量像素掩码、30830组问答对，覆盖122类目标，是现有数据集类别数量的5倍以上；
维度全面：系统涵盖层级粒度（概念+分割双层级）、多目标、推理需求（显式+隐式）、语言变异性（长+短指令）四大核心场景；
质量过硬：通过“自动筛选+人工审核”的半自动化流程构建，既保证标注精度（含掩码、边界框等多类型标注），又确保指令与场景的逻辑一致性。

2. 高效模型SegEarth-R2：精准应对复杂场景

针对LaSeRS数据集的挑战，研究团队设计了30亿参数的MLLM架构SegEarth-R2，核心亮点的两大创新机制：

空间注意力监督：解决小目标/部件级分割不准的痛点，通过直接监督模型内部的视觉-语言注意力映射，强制模型聚焦目标区域，避免细节丢失；
灵活分割查询机制：摒弃传统“先生成候选再筛选”的低效模式，通过动态输出[SEG]令牌，直接适配单/多目标场景，既提升速度又减少冗余计算。

模型整体架构简洁高效，由视觉编码器提取多尺度特征，LLM负责指令理解与推理，分割头基于[SEG]令牌生成精准掩码，实现“理解-推理-分割”端到端完成。

三、实验结果：刷新多项纪录，性能全面领先

在LaSeRS及三大主流遥感基准测试（RRSIS-D、RefSegRS、EarthReason）中，SegEarth-R2表现惊艳：

LaSeRS数据集上：平均gIoU/cIoU达57.2/67.9，在部件级分割任务中以20个百分点的优势超越第二名，单目标任务排名第一，多目标任务位列第二（仅落后80亿参数模型）；
跨数据集泛化：在RRSIS-D测试集gIoU达67.9，RefSegRS测试集达74.8，EarthReason推理分割平均得分70.9，均刷新当前最优纪录；
效率优势显著：仅30亿参数，比70亿、130亿参数的竞品更轻巧，推理时间减少34.1%，计算成本降低27.4%，兼顾性能与部署可行性。