news 2026/4/16 17:20:40

【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割

文章:GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码:https://reachomk.github.io/gen2seg

单位:加州大学戴维斯分校


一、问题背景

人类仅凭有限经验就能识别各类陌生物体,而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中,现有模型要么需要大规模标注数据(如SAM依赖1100万张图像和11亿个掩码),要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练,就具备强大的跨类别、跨风格实例分割能力,成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

  1. 核心思路:借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构,天然蕴含感知分组机制,将其适配到类别无关的实例分割任务。

  2. 模型选择与微调:基于Stable Diffusion 2和MAE(仅经ImageNet-1K预训练),通过端到端微调实现分割,无需互联网规模预训练或文本监督。

  3. 实例着色损失设计:将分割掩码编码为RGB图像(每个实例分配唯一颜色、背景为黑色),设计三重损失: intra-实例方差损失(保证实例内像素颜色一致)、inter-实例分离损失(推开实例外像素与实例颜色)、均值分离损失(区分不同实例的颜色中心),无需固定颜色映射即可实现精准分割。

  4. 点提示分割方案:通过高斯加权平均计算提示点的查询向量,结合相似度映射与双边滤波,实现简单高效的点提示二进制掩码生成,无需额外训练掩码解码器。

三、实验结果

  1. 零样本泛化表现:在COCOexc、DRAM(艺术)、EgoHOS(第一视角)、iShape(精细结构)、PIDRay(X光)5个数据集上,SD模型性能接近强监督的SAM,iShape数据集上mIoU达51.4,远超SAM的16.8。

  2. 边缘检测优势:BSDS500数据集上,SD模型边缘AP达93.4,显著优于SAM的79.0,即使训练数据为多边形边缘的COCO,仍保持10个百分点以上的优势。

  3. 数据鲁棒性:仅用5类物体(书籍、椅子等)或简单形状数据集(ClevrTex)训练,仍能保持良好泛化;面对色调调整、灰度化等图像扰动,掩码质量下降有限。

  4. 高效训练特性:SD模型仅需4块RTX6000 Ada GPU训练29小时(8.7万张图像、370万掩码),远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势
  1. 泛化能力突出:无需见过目标类别掩码,就能分割人类、动物、印象派艺术、X光图像等未训练场景,突破数据依赖。

  2. 细节分割精准:在精细结构(如电线)和模糊边界(如马车与马匹)分割上优于SAM,边缘更清晰。

  3. 训练高效灵活:仅需微调解码器或少数层即可达到理想效果,支持少量标注数据训练,适配不同硬件资源。

  4. 鲁棒性强:对图像颜色、纹理变化不敏感,适配复杂真实场景。

局限
  1. 小物体分割薄弱:受预训练偏置影响,对小型物体的分割性能较差(COCO S exc的mIoU仅8.5)。

  2. 训练分辨率受限:微调分辨率低于SAM(480×640/224×224 vs 1024×1024),可能影响细节捕捉。

  3. 部分场景边界模糊:倾向于将云层、草地等归为背景,高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失,实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割,为低成本、高泛化的视觉感知任务提供了新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:32:12

2026年02月08日最热门的开源项目(Github)

本期榜单展示了一系列优秀的开源项目,主要集中在人工智能和编程工具领域。以下是对榜单的详细分析: 项目概述 类型和语言:榜单中大部分项目使用了 TypeScript 和 Python 语言,显示了这两种语言在现代开发中的受欢迎程度。TypeScr…

作者头像 李华
网站建设 2026/4/16 11:57:22

PETRV2-BEV模型训练全流程:从环境配置到可视化分析

PETRV2-BEV模型训练全流程:从环境配置到可视化分析 1. 引言 如果你对自动驾驶技术感兴趣,一定听说过BEV(鸟瞰图)感知。简单来说,就是让AI模型像鸟一样从空中俯视道路,识别出车辆、行人、障碍物等目标的三…

作者头像 李华
网站建设 2026/4/16 16:09:59

SiameseUIE在医疗文本分析中的应用:病历信息结构化

SiameseUIE在医疗文本分析中的应用:病历信息结构化 1. 当医生还在手动翻病历时,AI已经完成了结构化整理 上周和一位三甲医院信息科的朋友聊天,他提到一个很实际的困扰:科室每天收治30多位患者,每位患者的电子病历平均…

作者头像 李华
网站建设 2026/4/16 14:03:16

7个实战技巧精通Cantera:化学系统模拟从入门到工业应用

7个实战技巧精通Cantera:化学系统模拟从入门到工业应用 【免费下载链接】cantera Chemical kinetics, thermodynamics, and transport tool suite 项目地址: https://gitcode.com/gh_mirrors/ca/cantera 在化学反应工程、燃烧科学和材料研发领域,…

作者头像 李华
网站建设 2026/4/16 14:36:29

手滑封神!韩国交易所错发 62 万枚比特币,币圈当场吓崩了

近日,韩国第二大加密货币交易所 Bithumb 的一场促销活动,闹出了全球金融圈都震惊的大乌龙。原本计划给 249 名中奖用户发总计 62 万韩元(约 2879 元人民币)的“随机宝箱”奖励,结果执行员工一个手滑,把发放…

作者头像 李华
网站建设 2026/4/16 5:11:04

Qwen3-Reranker-8B与Python结合实战:构建智能文本重排序系统

Qwen3-Reranker-8B与Python结合实战:构建智能文本重排序系统 你有没有遇到过这样的场景:用搜索引擎查资料,前几条结果看起来挺相关,但点进去发现内容质量不高,或者根本答非所问?或者在公司内部的知识库系统…

作者头像 李华