原文链接:真正类别无关的、理想的、可用于全自动物体计数系统的解决方案。
在智能交通系统中,算法需实时监测不同区域的人流、车流密度。在工业流水线上,模型要快速清点成千上万个形态各异的零件。
看似简单的计数任务,实则涉及物体识别、定位与区分。当然,目前来讲类别特定的物体计数已经非常成熟。
只要能够为每个物体类别获取足够大的带标注训练数据集,这些计数模型就可以可靠地计数属于单个预定类别的大量物体。
如何应对新增类别的需求?这是在真实场景中我们需要应对的方向:开放词汇目标计数!旨在统计图像中任意类别物体的实例数量。
现有大模型方法大多假设每张图像中仅存在一个物体类别,其依赖额外的输入(如视觉示例或文本提示)来指定应计数的物体。
那能否不借助任何辅助信息及训练,仅通过一张图像,就能统计任意类别物体的实例数量呢?今天介绍的OCCAM框架是真正类别无关的、理想的、可用于全自动物体计数系统的、以及目前最通用的解决方案。
原文链接:真正类别无关的、理想的、可用于全自动物体计数系统的解决方案。
# PaperClass-Agnostic, Training-Free, Prior-Free and Multi-Class Object Counting# Arxivhttps://arxiv.org/pdf/2601.13871# Codehttps://mikespanak.github.io/OCCAM_counter/一、类别无关计数的三大流派
现有的类别无关计数方法可以根据以下几点进行分类:是否依赖先验信息、是否需要专门训练以及是否支持多类别计数。
1. 先验依赖型
先验依赖型方法是类别无关计数领域的开山鼻祖,也是目前最成熟的技术路线。核心思路很简单:既然AI不知道要数什么,那就明确告诉它,给模型提供示例物体、文本描述或点标注。
基于示例的方法通过给定图像中的1-3个实例提供最强的指导,代表性的工作PseCo 将SAM的通用分割能力与CLIP的语义理解能力相结合。
2. 无需训练型
无需训练的方法旨在通过利用基础模型来克服对训练数据的需求,之前文章中介绍过的 CountingDINO 依赖完全无监督的DINOv2特征来提取潜在物体原型并生成基于相似性的密度图。
3. 多类别全能型
现实世界的图像很少只包含一类物体,多类别全能型方法旨在一次性解决所有类别物体的计数问题。
ABC123是首个多类别计数框架,它是一种基于Transformer的密度回归方法,能够在无需先验的情况下同时计数多种物体类型。每个物体类别最多可以有300个实例,且每张图像最多只能计数4个不同类别。
二、三个基础突破定义通用计数新标准
一张野外观测照片中可能有羚羊、斑马、树木和岩石,无论是稀疏分布还是密集排列。OCCAM 都能一次性给出每类物体的准确数量,且其实例数量没有上限。
如何实现无需训练?查看原文链接:真正类别无关的、理想的、可用于全自动物体计数系统的解决方案。https://mp.weixin.qq.com/s/Dw7J-MFiwcHoJ1NxgG0ljg