news 2026/6/10 19:08:00

【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

文章:SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

代码:https://github.com/earth-insights/SegEarth-R2

单位:西安交通大学



Attention:The LaSeRS dataset will be used as part of theAIRS 2026contest, thus its release is delayed. Stay tuned! Important information will be updated on https://github.com/earth-insights/SegEarth-R2

一、问题背景:现有AI“听不懂”复杂遥感指令

遥感图像的语言引导分割技术,是灾害响应、环境监测、城市规划等领域的核心支撑,它需要AI将自然语言指令精准映射到像素级的目标区域。但长期以来,这项技术面临四大关键瓶颈:

  1. 粒度层级复杂:从“飞机”这类大类到“飞机发动机”等部件级细分,目标尺度跨度极大,现有模型难以兼顾;

  2. 多目标并行难:单一指令需同时识别多个目标(如“找避难所+避危险建筑”),传统模型只能逐一处理;

  3. 隐含意图难推断:指令常包含隐含逻辑(如“地震逃生方向”需推断“开阔地=安全”),而非直接标注类别;

  4. 语言风格多变:指令可长可短、可详可略,模型鲁棒性不足。

更关键的是,现有数据集多聚焦简单单目标场景,缺乏覆盖上述复杂维度的训练资源,导致AI在真实场景中“水土不服”,难以落地实用。

二、方法创新:两大核心突破,兼顾全面性与高效性

为破解上述难题,研究团队推出“数据集+模型”的完整解决方案,双管齐下突破技术瓶颈:

1. 首个全能数据集LaSeRS:覆盖四大复杂维度

LaSeRS是首个专门针对遥感复杂语言引导分割的大规模数据集,堪称AI的“全能训练题库”:

  • 规模庞大:包含40396张高质量像素掩码、30830组问答对,覆盖122类目标,是现有数据集类别数量的5倍以上;

  • 维度全面:系统涵盖层级粒度(概念+分割双层级)、多目标、推理需求(显式+隐式)、语言变异性(长+短指令)四大核心场景;

  • 质量过硬:通过“自动筛选+人工审核”的半自动化流程构建,既保证标注精度(含掩码、边界框等多类型标注),又确保指令与场景的逻辑一致性。

2. 高效模型SegEarth-R2:精准应对复杂场景

针对LaSeRS数据集的挑战,研究团队设计了30亿参数的MLLM架构SegEarth-R2,核心亮点的两大创新机制:

  • 空间注意力监督:解决小目标/部件级分割不准的痛点,通过直接监督模型内部的视觉-语言注意力映射,强制模型聚焦目标区域,避免细节丢失;

  • 灵活分割查询机制:摒弃传统“先生成候选再筛选”的低效模式,通过动态输出[SEG]令牌,直接适配单/多目标场景,既提升速度又减少冗余计算。

模型整体架构简洁高效,由视觉编码器提取多尺度特征,LLM负责指令理解与推理,分割头基于[SEG]令牌生成精准掩码,实现“理解-推理-分割”端到端完成。

三、实验结果:刷新多项纪录,性能全面领先

在LaSeRS及三大主流遥感基准测试(RRSIS-D、RefSegRS、EarthReason)中,SegEarth-R2表现惊艳:

  1. LaSeRS数据集上:平均gIoU/cIoU达57.2/67.9,在部件级分割任务中以20个百分点的优势超越第二名,单目标任务排名第一,多目标任务位列第二(仅落后80亿参数模型);

  2. 跨数据集泛化:在RRSIS-D测试集gIoU达67.9,RefSegRS测试集达74.8,EarthReason推理分割平均得分70.9,均刷新当前最优纪录;

  3. 效率优势显著:仅30亿参数,比70亿、130亿参数的竞品更轻巧,推理时间减少34.1%,计算成本降低27.4%,兼顾性能与部署可行性。

四、优势与局限:看清技术落地的潜力与方向

核心优势

  1. 场景覆盖最全:首次实现四大复杂维度的全覆盖,真正适配真实遥感应用需求;

  2. 性价比突出:参数规模小但性能领先,降低算力门槛,更适合实际部署;

  3. 泛化能力强:在多个公开基准上均表现优异,证明模型的通用性与稳健性;

  4. 开源开放:数据集与代码均已公开,为行业提供高质量基准与工具。

现存局限

  1. 多目标场景下,相比80亿参数的GeoPixel模型仍有差距,复杂推理能力受参数规模限制;

  2. 对极端长尾分布的细分类别,分割精度仍有提升空间;

  3. 模型推理速度虽优于传统方法,但在实时性要求极高的场景(如灾害应急响应),仍需进一步优化。

五、一句话总结

LaSeRS数据集填补了遥感复杂语言引导分割的训练资源空白,SegEarth-R2模型以两大创新机制实现“精准+高效”的双重突破,共同推动遥感AI从“听懂简单指令”迈向“应对复杂真实场景”,为灾害救援、城市规划等领域提供更实用的技术支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:37:02

40、Git钩子描述与使用详解

Git钩子描述与使用详解 1. 前言 在Git的使用过程中,钩子(Hooks)是一种非常强大的工具,它允许我们在特定的Git操作前后执行自定义脚本,从而实现各种自动化任务和验证逻辑。本文将详细介绍几种常见的Git钩子及其用途,并给出相应的示例代码。 2. 部分钩子详细介绍 2.1 P…

作者头像 李华
网站建设 2026/5/28 1:22:42

开源神器GPT-SoVITS:低数据需求下的高效语音克隆解决方案

开源神器GPT-SoVITS:低数据需求下的高效语音克隆解决方案 在如今人人都想打造“数字分身”的时代,你是否也想过用自己的声音朗读小说、播报新闻,甚至让AI替你说话?但传统语音合成技术动辄需要几小时的专业录音和昂贵的训练成本&am…

作者头像 李华
网站建设 2026/6/10 15:36:12

基于Java+SpringBoot+SpringBoot社区医疗服务管理(源码+LW+调试文档+讲解等)/社区医疗小程序/医疗服务小程序/社区管理小程序/医疗管理小程序/社区医疗服务小程序

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/5/26 16:21:00

超详细版Keil5安装教程,专为STM32初学者定制

从零搭建STM32开发环境:Keil5安装实战全解析(工程师手记) 最近带几个学生做课程设计,发现一个老问题又出现了—— 明明只是想点个LED,却卡在了Keil安装这一步。 有人提示“找不到设备”,有人编译报错说…

作者头像 李华
网站建设 2026/5/21 9:58:00

GPT-SoVITS语音克隆在语音社交APP中的个性化功能

GPT-SoVITS语音克隆在语音社交APP中的个性化功能 你有没有想过,有一天你在语音聊天时,对方听到的不是系统机械音,而是“你”的声音在念出他们写下的文字?更进一步——即使你说的是中文,别人用你的声线说着英文、日文&a…

作者头像 李华
网站建设 2026/6/10 17:37:32

低成本构建语音克隆系统:GPT-SoVITS + GPU算力最佳组合

低成本构建语音克隆系统:GPT-SoVITS GPU算力最佳组合 你有没有想过,只用一分钟的录音,就能“复制”出一个人的声音?不是简单的音色模仿,而是真正具备语义理解、自然语调、跨语言表达能力的高保真语音合成。这不再是科…

作者头像 李华