news 2026/4/28 1:06:22

BLO-Inst:双层优化对齐YOLO与SAM的鲁棒实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
BLO-Inst:双层优化对齐YOLO与SAM的鲁棒实例分割

本文核心贡献如下:

  1. 发现对齐过拟合问题:指出标准联合训练导致检测器仅记忆训练样本的特定框调整,缺乏生成通用提示策略的能力。

  2. 提出BLO-Inst框架:将检测器参数视为元参数,通过双层优化在划分的数据子集上交替优化分割器和检测器,使检测器学习鲁棒的提示规则,防止过拟合。

  3. 高效适配设计:冻结SAM图像编码器,仅微调轻量级LoRA与检测器,在保持高精度的同时大幅降低参数量和训练成本。

  4. 广泛实验验证:在通用和生物医学多个数据集上超越现有自动化提示方法与专业分割模型,证明框架的鲁棒性与泛化能力。

博主简介

AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者

深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。

🚀 核心专长与技术创新

  • YOLO算法结构性创新:于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。

  • 技术生态建设与知识传播:独立运营“计算机视觉大作战”公众号(粉丝2.2万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。

🏆 行业影响力与商业实践

  • 荣获腾讯云年度影响力作者创作之星奖项,内容质量与专业性获行业权威平台认证。

  • 全网累计拥有8万+垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。

  • 具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。

💡 未来方向与使命

秉持“让每一行代码都有温度”的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。

原创自研系列,26年计算机视觉顶会创新点

《YOLO26魔术师》

原创自研系列,25年计算机视觉顶会创新点

《YOLOv13魔术师》

《YOLOv12魔术师》

《YOLO11魔术师》

《YOLOv8原创自研》

《YOLOv5原创自研》

《YOLOv7原创自研》

《YOLOv9魔术师》

​《YOLOv10魔术师》 ​

应用系列篇:

《YOLO小目标检测》

《深度学习工业缺陷检测》

《YOLOv8-Pose关键点检测》

23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高

《YOLOv8魔术师》

《YOLOv7魔术师》

《YOLOv5/YOLOv7魔术师》

《RT-DETR魔术师》

0.原理介绍

论文:BLO-Inst: Bi-Level Optimization Based Alignment of YOLO and SAM for Robust Instance Segmentation

摘要:Segment Anything Model 以其零样本能力彻底改变了图像分割领域,然而其对人工提示的依赖阻碍了全自动部署。虽然将目标检测器集成作为提示生成器提供了一条自动化路径,但现有流程存在两个根本局限:目标不匹配(用于几何定位的检测器所优化的目标与 SAM 所需的最佳提示上下文不一致)以及标准联合训练中的对齐过拟合(检测器只是记住了训练样本的特定提示调整,而不是学习一个可泛化的策略)。为弥补这一差距,我们引入了BLO-Inst,一个通过双层优化来对齐检测与分割目标的统一框架。我们将对齐表述为一个在非重叠数据划分上的嵌套优化问题。在底层,我们基于当前检测提议在子集 D1 上微调 SAM,以最大化分割保真度。在顶层,我们更新检测器以生成边界框,该边界框显式地最小化微调后的 SAM 在另一个独立子集 D2 上的验证损失。这有效地将检测器转化为一个分割感知的提示生成器,其优化的边界框不仅服务于定位精度,更服务于下游的掩码质量。大量实验表明,BLO-Inst 在通用和生物医学领域的任务上均取得了优越性能,超越了标准基线。

1. 引言

实例分割,即在图像中检测并勾勒出单个物体的任务,是自动驾驶到生物医学分析等广泛应用的核心要求。传统上,该领域依赖于为特定任务训练的专业模型,如 Mask R-CNN 和 SOLO。然而,这些方法通常泛化能力有限,并且需要使用大型标注数据集进行训练。相比之下,基础模型的出现因其丰富的先验知识而从根本上改变了这一格局。Segment Anything Model 作为一个强大的基础模型,在 1100 万张图像上训练而成,无需重新训练即可处理各种任务。与传统方法不同,SAM 作为一种可提示的方法运行,能够根据点或框等提示生成高质量掩码。虽然这种设计非常适合交互式分割,但它为无法进行人工输入的自动化流程带来了瓶颈。因此,将 SAM 部署到自主实例分割中,需要用一个能够自行生成准确提示的检测器来替代人工引导。

为实现自动化,一种常见策略是将 SAM 与目标检测器在顺序流程中结合,其中检测器提供边界框作为提示。然而,简单地使用预训练检测器存在根本性的目标不匹配问题,因为完美贴合目标物体的框往往不是生成良好掩码的最佳提示。例如,如图 2 所示,一个行人可能需要更紧的框来去除背景噪声,而一个细胞可能需要更大的框来捕捉完整的结构。为了解决这个问题,最近的研究如 USIS-SAM 和 RSPrompter 尝试基于分割损失和检测损失之和来联合训练检测器和 SAM。虽然这使检测器能够为掩码解码器输出所需的提示,但它导致了另一个局限:对齐过拟合。在这种标准设置下,检测器和分割器在完全相同的数据样本上进行训练。这导致检测器只是记住了为最小化这些训练样本的损失所需的具体框调整,而不是学习为掩码解码器生成良好提示的通用规则。因此,在测试期间应用于新图像时,这种记忆化的对齐可能会失效,导致次优的分割。这种局限性也可以在消融研究中探索优化策略影响的“标准单级优化”与“双层优化”之间的性能差距中实验观察到。

为了解决这些局限性,我们从标准的机器学习超参数调优策略中汲取灵感。在机器学习中,超参数通常在单独的验证集上进行调优,以确保它们最大化模型的泛化能力,而不是过拟合到训练集。我们将同样的策略应用于我们框架的设计中。我们将检测器提供的边界框不仅仅视为掩码解码器的静态提示,而是视为由检测器生成的、指导掩码解码器预测的“动态超参数”。如果检测器与分割器在相同数据上优化,它会将提示过拟合到该特定训练集,类似于在训练数据上调优超参数会导致泛化能力差。然而,通过将检测器视为一组超参数,并基于分割器在单独验证划分上的响应来优化它,我们实现了抗过拟合的对齐。这便将学习目标从简单地找到物体转变为找到分割器的最佳提示,从而同时解决了目标不匹配和对齐过拟合问题。

实现这一概念,我们引入了BLO-Inst,一个通过双层优化来实现该策略的统一框架。具体来说,如图 1(a) 所示,BLO-Inst 管理两组参数:分割模型(包括 LoRA 层和原始 MLP 头,同时冻结重型图像编码器)和目标检测器。我们将训练过程表述为在训练数据的两个非重叠子集上的嵌套优化问题,如图 1(c) 所示。在底层,我们暂时固定目标检测器,并在子集 (D1) 上微调 SAM,以在当前检测器下最大化分割性能。在顶层,我们在另一个子集 (D2) 上验证微调后的 SAM,并更新检测器。顶层的目标是生成能够最小化验证损失的提示。这确保了检测器被优化为生成有助于 SAM 正确分割新图像的提示。通过将学习过程分离到不同的数据子集上,BLO-Inst 有效减轻了对齐过拟合的风险,确保检测器学习到鲁棒、可泛化的提示策略。

我们的贡献总结如下:

  • 我们指出了当前自动化分割流程中的对齐过拟合问题,即标准联合训练导致检测器记住训练数据,而不是为特定任务学习可泛化的提示策略。

  • 我们提出了BLO-Inst,一个双层优化框架,将检测器的权重形式化为元参数。通过在单独的验证划分上优化检测器,我们有效地防止了对齐过拟合,确保模型学习到能够泛化到未见数据的鲁棒提示规则,而不是记住训练分布。

  • 在通用和生物医学领域的广泛实验验证了 BLO-Inst 取得了优越性能,优于标准的联合训练基线和架构修改方法。

2. 相关工作

2.1. 实例分割

实例分割是一个核心的计算机视觉挑战,它统一了目标检测和语义分割,要求模型不仅要定位感兴趣的对象,还要描绘其精确的像素级边界。传统上,深度学习方法一直由以 Mask R-CNN 为代表的两阶段框架主导。这些方法首先通过区域提议网络生成候选区域,然后利用 RoIAlign 等机制执行细粒度分类和掩码生成。虽然精度高,但两阶段模型的顺序性通常会带来较高的计算延迟。为了解决这个问题,开发了像 SOLO 和 SOLOv2 这样的单阶段架构,它们直接从全图特征图预测掩码,无需显式生成提议,在推理速度和精度之间提供了更好的权衡。最近,该领域见证了向基于 Transformer 的架构(如 Mask2Former)的范式转变,这些架构将分割表述为使用可学习查询的集合预测问题,为基于提示的范式铺平了道路。

随着视觉基础模型的出现,最近的研究已转向利用分割一切模型进行实例级任务。虽然像 GroundingDINO 和 YOLO-World 这样的开放词汇检测器可以在顺序流程中与 SAM 级联,但这导致了不连贯的优化问题,即检测器为边界框回归而优化,而分割器需要最优提示来预测分割图。为了解决这个问题,最近的方法提出了自动化提示模块。USIS-SAM 引入了一个为水下图像处理从头开始训练的轻量级提示生成器,而 RSPrompter 则为遥感领域附加了基于查询的头到 SAM 编码器。然而,这些方法通常依赖于在相同数据集上的标准联合训练策略。如前所述,这种方法存在对齐过拟合问题,即提示生成器学会了记住训练样本的具体框调整,而不是学习鲁棒、可泛化的提示策略。相比之下,我们的工作将检测器视为超参数,并通过双层优化对其进行优化以确保鲁棒对齐。

2.2. 基础模型适配

大规模基础模型的出现,使得需要有效的策略将其泛化表示适配到下游任务,而无需从头训练的成本。当前的适配范式主要分为两类:提示调优和参数高效微调。提示调优方法引入可学习标记到输入空间,以指导冻结模型针对特定下游任务的行为。相反,PEFT 策略将轻量级可训练模块注入模型架构,仅更新一小部分参数。在分割一切模型的背景下,这些策略已被广泛探索用于特定领域的应用。像 MedSAM、SAMed 和 BLO-SAM 等方法有效地利用 LoRA 或适配器层将 SAM 适配到医学成像模态,显著提高了 CT 和 MRI 数据上的分割精度。然而,这些现有的适配方法主要关注类别级预测或语义分割,为固定类别优化静态权重。它们常常忽略了实例分割的动态特性,即模型必须针对单个对象适应变化的几何提示。我们的工作通过引入一个双层框架来弥补这一差距,该框架通过 PEFT 适配基础模型,并同时优化提示生成器以提供与任务对齐的提示引导。

2.3. 双层优化

双层优化将学习表述为一个嵌套问题,其中底层优化任务受到上层目标的约束。该框架已被广泛应用于神经架构搜索、超参数优化和数据重加权。在这些应用中,模型参数通常在训练集上于底层优化,而元参数则在单独的验证集上于上层学习,以最大化泛化能力。在为 BLO 问题开发高效的基于梯度的求解器方面取得了显著进展。Liu 等人引入了有限差分近似来估计上层梯度,而无需显式计算 Hessian 矩阵;Finn 等人则提出通过迭代微分直接计算元变量的梯度更新。最近,Choe 等人开发了一个软件框架,能够跨这些不同的近似方案进行高效的梯度计算。在这项工作中,我们利用这些高效的求解器来实现我们提出的框架,使 BLO 范式适应于将目标检测与分割基础模型对齐。

3. 方法

3.1. BLO-Inst 概述

我们提出的框架 BLO-Inst 将目标检测器与分割模型统一到一个实例分割系统中,如图 1 所示。令 Φ 表示 YOLO 检测器的可训练参数,Θ 表示 SAM 的可训练参数。标准方法通常通过在相同数据集上求和损失来优化这些模型。然而,这常常导致对齐过拟合,即检测器记住了训练样本的具体框调整,而不是学习可泛化的提示策略。为解决此问题,我们将训练表述为一个双层优化问题。我们将训练数据 D 划分为两个不相交的子集:D₁ 和 D₂。学习过程包含两个嵌套层级:在底层,我们固定检测器 Φ,并在 D₁ 上微调分割器 Θ 以适应所提供的提示;在顶层,我们更新检测器 Φ,以生成能够最小化分割器在 D₂ 上验证损失的提示。通过在未见数据上验证提示质量,我们迫使检测器学习鲁棒的调整规则。两个层级的问题共享相同形式的损失函数。两层迭代优化直至收敛,如算法 1 所示。

预备知识。如上所述,BLO-Inst 建立在两个基础架构之上:YOLO 和 SAM。YOLO 是一种高效的单阶段目标检测器,直接从输入图像回归边界框坐标和类别概率。我们使用 YOLO 作为提示生成器,参数化为 Φ。SAM 是一个可提示的分割基础模型,包含一个重型图像编码器、一个轻量级提示编码器和一个掩码解码器。它旨在根据给定的提示预测零样本掩码。在我们的框架中,我们采用 SAM 作为掩码生成器,参数化为 Θ,以 YOLO 提供的框为条件生成高保真掩码。

3.2. 双层优化框架

底层问题(分割适配)。在底层,检测器 Φ 是固定的。它生成边界框作为分割模型的提示。我们在 D₁ 上优化分割器参数 Θ,以最小化统一目标 L_total,它是四个分量的加权和,与标准 YOLO 训练一致,但增加了 SAM 的反馈:

其中 λ 项是平衡各分量权重的超参数。底层旨在解决以下优化问题:

这里,Θ*(Φ) 表示最优分割参数 Θ* 依赖于检测器 Φ,因为损失函数的值取决于 Φ 生成的提示的质量和特性。

顶层问题(提示对齐)。在顶层,我们评估微调后的分割器 Θ(Φ) 在 D₂ 上的性能。我们的目标是更新检测器参数 Φ,以在验证集 D₂ 上最小化相同的统一目标 L_total,这模拟了测试时的评估。顶层优化问题表述为:

该目标迫使检测器找到同时满足两个条件的解:它必须保持高检测精度,更重要的是,必须生成能够最小化分割器在未见数据上验证损失的可泛化提示,以防止对齐过拟合。与底层固定 Φ 不同,这里 Φ 是活动变量。

双层优化框架。整合上述两个优化问题,我们将它们统一为一个内聚的双层优化框架:

在此框架中,两个优化问题深度互依。底层的输出 Θ*(Φ) 作为顶层的关键输入,代表分割器对当前提示的最优适配。反之,顶层的优化变量 Φ(检测器)作为底层目标中的条件,定义了分割器训练时所处的提示空间。这种嵌套结构将提示生成逻辑与特定训练实例解耦,有效防止了对齐过拟合,确保了学习到的提示策略对新图像具有鲁棒性。

3.3. 优化算法

我们采用基于梯度的优化算法来求解式 (4) 定义的双层问题。由于对于每次顶层更新,获得底层精确最优解 Θ(Φ) 在计算上不可行,我们采用受 Liu 等人启发的高效近似策略。如算法 1 所示,我们并非在每一步都将分割器完全训练至收敛,而是使用单步梯度下降更新来近似 Θ(Φ)。在迭代 t 时,给定当前检测器 Φ^(t),我们在批次 B₁ 上更新分割器参数 Θ^(t)。然后,我们使用这个更新后的代理 Θ′ 来近似最优分割器 Θ*(Φ^(t)),用于后续的顶层更新。详细推导见附录 B。

4. 实验

在本节中,我们在多样化的实例分割任务上评估 BLO-Inst,涵盖通用目标检测、细粒度部分分割和生物医学目标检测。我们旨在证明,我们的双层优化框架在将提示生成器与分割器对齐时能有效防止过拟合,从而优于其他专业方法和自动化提示基线。

4.1. 数据集

我们在 6 个公开数据集上评估 BLO-Inst,将它们分类为通用和生物医学目标基准,以评估领域泛化能力。对于通用目标检测,我们使用 PennFudanPed 进行行人分割,TransIns 用于在不同条件下检测车辆和车道线,WheatIns 用于密集农业目标检测,以及 CarPartIns 用于车辆部件的细粒度多类分割。为了评估在生物医学领域的性能,我们采用 CellCountIns(用于低对比度显微镜图像中细胞计数的二值数据集)和 RWCellIns(区分红细胞和白细胞的多元基准)。这些数据集在规模、密度和复杂度上差异显著,从二值到多类任务,确保了跨不同领域的稳健评估。关于数据集的更多细节见附录 C。在我们的方法中,训练集被进一步随机划分为大小相等的两个子集 D₁ 和 D₂。基线方法使用整个训练集而不进行任何细分。

4.2. 实验设置

基线与指标。为了全面评估我们提出框架的有效性,我们将 BLO-Inst 与多样化的最先进基线进行比较,分为两组:(1) 专业实例分割器,包括代表性的两阶段 Mask R-CNN 和单阶段无框 SOLO;(2) 自动化提示方法,包括使用预训练专业检测器为 SAM 提供框提示的 SAM-seg 变体(所有参数将在目标数据集上进一步微调)、RSPrompter 的基于锚框和基于查询的变体,以及使用辅助网络进行提示生成的 USIS。遵循标准评估协议,我们报告在 IoU 阈值 0.5 到 0.95 上平均的平均精度。为了更细粒度地评估检测召回率和分割掩码保真度,我们还报告 AP50 和 AP75。

实现细节。我们使用 PyTorch 实现框架,所有实验在一张 NVIDIA A100 GPU 上进行。对于模型架构,我们采用 YOLOv7 作为提示生成器,并使用初始化了 SA-1B 权重的 SAM ViT-B 作为分割器。为了确保参数效率,冻结 SAM 骨干网络,仅通过注入的秩为 r=4 的 LoRA 层微调轻量级掩码解码器。为确保检测器在双层优化前适应特定领域,YOLO 组件在目标数据集的训练集上预训练 100 次迭代。在双层优化阶段,模型端到端微调 20 个 epochs。我们使用随机梯度下降进行两个优化层级,底层和顶层的学习率分别设置为 α=1×10⁻³ 和 β=1×10⁻³,通过 LambdaLR 调度器调整。关于统一目标函数,权衡参数设置如下:框回归损失 λ₁=0.3,目标性损失 λ₂=0.7,分类损失 λ₃=0.3,分割损失 λ₄=0.7。我们赋予 λ_obj 和 λ_seg 更高的权重,以优先考虑目标发现和最终掩码保真度,而对 λ_box 和 λ_cls 设置相对较低的权重,以利用 SAM 对近似空间提示的固有鲁棒性,减少对完美像素边界框回归的需求。为促进双层优化,我们将训练集随机划分为大小相等的两个不相交子集,分别记为子集 D₁(用于优化 Θ)和 D₂(用于优化 Φ)。

4.3. 结果与分析

单类别通用目标基准。我们首先在 PennFudanPed 和 WheatIns 数据集上评估 BLO-Inst 的单类别分割任务。定量结果以及模型复杂度和训练成本见表 1。可以看出,BLO-Inst 在两个基准上均取得了最高的 mAP,证明了提示生成器与分割器之间的优越对齐。值得注意的是,在具有密集遮挡的 WheatIns 数据集上,我们的方法相比第二好的基线将 mAP 提高了超过 4.7%。这种优越性主要归功于我们的双层优化策略,它能防止对齐过拟合并提高泛化能力。除了精度,表 1 还突出了我们方法的参数效率。虽然像 USIS 和 RSPrompter 这样的自动化提示方法引入了辅助网络或需要微调庞大的 SAM 骨干,但 BLO-Inst 仅用 3866 万个可训练参数就达到了最先进的性能。这是通过冻结 SAM 骨干并仅更新轻量级 LoRA 层和 YOLO 检测器实现的。因此,我们的训练成本显著低于或与其他基于 SAM 的微调方法相当,验证了我们的双层策略在提高模型性能的同时保持了高计算效率。

多类别通用目标基准。我们接着在 TransIns 和 CarPartsIns 上评估多类别分割任务的性能。结果总结在表 2 中。BLO-Inst 在这些复杂场景中持续优于基线。在 CarPartsIns 上,该任务需要对几何上不同的部件进行细粒度区分,我们的方法达到了 67.2% 的 AP75,显著超过了最佳的自动化提示基线 RS+Query。这表明我们的双层优化有效地教会了检测器生成具有类别判别性的提示,这些提示不仅能定位对象,还能紧密贴合以触发 SAM 解码器中的特定语义掩码。

生物医学基准。最后,为了评估领域泛化能力,我们在 CellCountIns 和 RWCellIns 数据集上报告了结果,见表 3。尽管自然图像与显微镜之间存在显著的领域差距,BLO-Inst 仍表现出稳健的适应性。在多类 RWCellIns 数据集上,我们的方法取得了 94.6% 的 AP50 和 89.8% 的 AP75,优于其他可能遭受对齐过拟合的自动化提示基线和专业模型 Mask R-CNN。这证实了我们的方法成功弥合了领域差距,使检测器的提示策略与生物医学对象的几何属性对齐,实现了高保真分割。

定性分析。为了可视化 BLO-Inst 的有效性,我们在图 3 和图 4 中展示了与最先进基线的定性比较。在 PennFudanPed 数据集上,传统的全监督方法如 Mask R-CNN 常常在精确贴合边界方面遇到困难,而最近的自动化提示方法有时会表现出提示错位导致掩码碎片化。相比之下,BLO-Inst 即使在遮挡下也能生成清晰、内聚的掩码,准确描绘实例。此外,在具有挑战性的高密度环境 CellCountIns 中,基线提示学习方法经常遭受“实例合并”问题,即相邻细胞被分组到单个掩码中。我们的方法成功地将这些紧密堆积的实例以高保真度分离,证明了我们的双层对齐策略有效地教会了检测器生成针对 SAM 骨干特定分割属性的判别性提示。关于交通、农业和工业数据集的更多定性结果见附录 E。

4.4. 消融研究

为了验证 BLO-Inst 中各个组件和设计选择的贡献,我们在 PennFudanPed 和 CellCountIns 数据集上进行了广泛的消融研究。除非另有说明,所有消融均使用默认设置:通过 LoRA 微调掩码解码器,使用一阶优化,以及 1:1 的数据划分比例。

可训练组件的有效性。我们首先研究应该优化 SAM 的哪些模块以适应下游任务。我们比较了四种设置:更新图像编码器、提示编码器、掩码解码器或全部三个组件。如图 5 所示,微调重型图像编码器导致性能次优且训练成本高。这是因为原始图像编码器已在大规模 SA-1B 数据集上预训练,已具备高度鲁棒和可泛化的特征提取能力。因此,在下游小数据集上积极微调此骨干网络,相对于计算开销而言收益递减。相比之下,仅更新掩码解码器显著提升了性能,证明适配分割头对于将 SAM 与提示生成器对齐至关重要。虽然微调所有组件带来了微小的进一步增益,但代价是巨大的参数开销。因此,我们选择掩码解码器作为效率和精度之间的最优权衡。

优化策略的影响。我们通过将我们的双层优化策略与标准的单层基线进行比较,分析了其有效性。结果如图 6 所示。双层优化策略在两个任务上均持续优于单层基线。这证实了划分数据并使用分割器的验证损失来更新检测器可以防止过拟合并提高泛化能力。虽然二阶近似在行人分割任务上实现了最高性能,但它需要显著更多的计算资源。因此,我们采用一阶优化作为默认设置,以降低训练成本,同时保持有竞争力的精度。

数据划分比例的敏感性。最后,我们探讨了 D₁ 和 D₂ 之间数据划分比例 γ = |D₁|/|D₂| 的影响。我们测试了 γ 从 0.25 到 4 的范围。如图 7 所示,平衡划分(γ=1)产生了最佳性能。数据过于偏向用于分割器更新的子集会使得检测器的优化过程缺乏数据,导致提示生成不佳。反之,数据过于偏向用于检测器更新的子集会阻止分割器学习足够的领域适配。平衡的比例为优化过程的两个层级提供了充足的数据以有效收敛。

5. 结论

在本文中,我们提出了 BLO-Inst,一个参数高效的实例分割框架,通过双层优化将 SAM 与预训练检测器对齐。通过将提示生成器表述为一个可学习的“超参数”,优化其以最大化 SAM 的验证性能,我们建立了一个协作反馈回路,弥合了几何定位与分割图预测之间的目标差距。在六个不同基准上的大量实验证明,BLO-Inst 显著优于全监督专业模型和最先进的自动化提示方法。这些发现验证了双层优化作为将基础模型适配到复杂下游任务的稳健范式,为自动化提示学习的未来研究提供了有前景的方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 1:06:20

Okontu:基于Dotfiles的Ubuntu开发环境自动化配置方案

1. 项目概述:Okontu,一个为Ubuntu量身定制的效率环境 如果你和我一样,是一个长期在Ubuntu(或者WSL下的Ubuntu)上工作的开发者,那你一定经历过无数次重复的配置过程。每次换新机器、重装系统,或…

作者头像 李华
网站建设 2026/4/28 1:01:27

手把手教你学Simulink——基于Simulink的H∞鲁棒控制器应对电网阻抗变化

目录 手把手教你学Simulink——基于Simulink的H∞鲁棒控制器应对电网阻抗变化​ 摘要​ 一、背景与挑战​ 1.1 为什么电网一“弱”,逆变器就“崩”?​ 1.2 核心痛点与设计目标​ 二、系统架构与核心控制推导​ 2.1 整体架构:从“被动防守”到“量化鲁棒”​ 2.2 核心…

作者头像 李华
网站建设 2026/4/28 0:58:19

汉字拆字终极指南:快速掌握20,000+汉字结构的Python神器

汉字拆字终极指南:快速掌握20,000汉字结构的Python神器 【免费下载链接】hanzi_chaizi 汉字拆字库,可以将汉字拆解成偏旁部首,在机器学习中作为汉字的字形特征 | Hanzi Decomposition Library allows Chinese characters to be broken down i…

作者头像 李华
网站建设 2026/4/28 0:57:55

边缘节点安全赋能:CDN 联动高防抵御复合型流量攻击

边缘节点安全赋能架构设计CDN与高防服务联动需构建分层防御体系。边缘节点负责流量清洗与分发,高防中心提供深度防护能力。流量调度层 通过DNS解析或Anycast技术实现攻击流量牵引,BGP协议动态调整路由将异常流量导向高防节点。安全检测层 部署基于AI的异…

作者头像 李华
网站建设 2026/4/28 0:56:25

如何高效使用网盘直链下载助手:完整解决方案指南

如何高效使用网盘直链下载助手:完整解决方案指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …

作者头像 李华
网站建设 2026/4/28 0:51:26

xFasterTransformer:CPU大模型推理加速引擎原理与部署实践

1. 项目概述:xFasterTransformer,CPU上的大模型推理加速利器如果你正在为如何高效、低成本地部署百亿甚至千亿参数的大语言模型(LLM)而头疼,尤其是在没有高端GPU的X86服务器集群上,那么今天聊的这个工具&am…

作者头像 李华