news 2026/4/16 15:02:00

【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【腾讯微信团队-饶峰云-arXiv25】WeDetect:通过检索实现快速开放词汇目标检测

文章:WeDetect: Fast Open-Vocabulary Object Detection as Retrieval

代码:https://github.com/WeChatCV/WeDetect

单位:腾讯微信团队


一、问题背景:传统方法的“速度与精度”困局

传统开放词汇目标检测主要分为两类思路,却都存在明显短板:

  • 融合型方法:通过深度跨模态融合层让图像和文字深度交互,精度较高,但计算量极大,导致推理速度慢,且视觉特征无法在不同文字查询间共享,换个描述就得重新计算;

  • 非融合型方法:采用双塔架构,不用复杂融合,速度更快,但过去在精度和泛化能力上始终落后于融合型方法,难以支撑复杂场景需求。

此外,现有模型还存在功能单一的问题:要么只能做基础检测,要么无法处理“左边穿7号球衣的球员”这类复杂指令,要么不能精准检索小物体,难以覆盖多场景实际应用。

二、方法创新:以“检索”为核心,打造全能模型家族

腾讯团队跳出传统思路,将“检索”理念贯穿始终,推出了WeDetect模型家族,通过三大核心创新解决痛点:

1. 核心架构:无融合双塔,兼顾速度与对齐

WeDetect家族统一采用双塔架构,彻底抛弃耗时的跨模态融合层:

  • 文本编码器:将文字描述(如“猫”“心形的锁”)编码成特征向量;

  • 视觉编码器:提取图片中不同尺度的区域特征,采用ConvNeXt backbone,天生适配多尺度物体检测。

  • 识别逻辑:通过计算文本特征与图像区域特征的相似度(点积)完成匹配,就像在“特征字典”里检索目标,无需反复交互,速度自然拉满。

2. 三大模型:各司其职,覆盖全场景需求

  • WeDetect(基础检测器):模型家族的“地基”,基于预训练的CLIP模型微调,搭配1500万张图片、3.3亿个标注框的高质量数据集(含多粒度标签,如“动物→狗→黄色的狗”),通过分阶段训练,在无融合架构下实现超高精度。

  • WeDetect-Uni(通用候选框生成器):冻结WeDetect的核心参数,仅训练一个“通用物体提示词”,就能批量生成图片中所有可能的物体候选框。关键是这些候选框的特征仍保留类别属性,可直接用于后续分类,还支持“物体检索”新功能——能从海量历史图片中快速找到含特定物体(哪怕是烟蒂这样的小物体)的图像,弥补了传统图像检索的细粒度短板。

  • WeDetect-Ref(复杂指令理解器):结合大语言模型(LLM)处理复杂指令,先由WeDetect-Uni生成候选框,再让LLM作为分类器,通过二进制分类头对所有候选框并行打分,一次性筛选出符合指令的目标。摒弃了LLM传统的逐token生成机制,推理速度提升13倍,还能避免边界框回归不准的问题。

3. 数据与训练:细节拉满,筑牢性能根基

  • 多粒度标签:为每个物体标注层级化标签,训练时随机采样,丰富文本多样性,助力细粒度对齐;

  • 分阶段训练:先预训练视觉和文本编码器,再训练模型头部和颈部,最后端到端微调,充分复用预训练知识;

  • 自动数据引擎:用目标检测器+SAM分割+Qwen2.5-VL大模型自动标注,生成高质量、无遗漏的标注数据,减少人工成本。

三、实验结果:15个基准测试登顶,性能全面碾压

在15个主流 benchmarks 上的测试显示,WeDetect家族实现了“速度与精度”的双重突破:

1. 基础检测:又快又准

  • WeDetect-Tiny(33M参数):在LVIS数据集上实现37.4 AP,比同类快模型YOLO-World-L高2.0 AP,且运行速度达62.5 fps,远超YOLO-World-L的54.6 fps;

  • WeDetect-Large:在LVIS数据集上达到49.4 AP,比此前的SOTA模型LLMDet高7.4 AP,性能断层领先。

2. 物体检索:细粒度优势明显

WeDetect-Uni在COCO和LVIS数据集上的物体检索F1分数达83.6,比经典模型CLIP高出37.2,能精准定位小物体和局部特征,检索速度远超传统方法。

3. 复杂指令理解:高效碾压大模型

WeDetect-Ref 4B(仅40亿参数)在RefCOCO/+/g数据集上平均准确率达93.2,比Qwen3-VL 4B高6.6个百分点,且推理速度是后者的13倍,甚至比Grounding-DINO-L还快;同时首次实现大模型在COCO数据集上AP突破50,比肩传统专业检测器。

四、优势与局限:实际应用的“加分项”与“待优化点”

核心优势

  1. 速度极快:无融合架构+并行推理,WeDetect-Tiny达62.5 fps,WeDetect-Ref比同类大模型快13倍,满足实时部署需求;

  2. 功能全面:统一覆盖基础检测、候选框生成、物体检索、复杂指令理解四大任务,无需多个模型拼接;

  3. 泛化性强:在跨领域数据集(如卡通、素描、纹身图像)和长尾类别上表现稳定,零样本迁移能力突出;

  4. 部署友好:架构简洁,可通过GPU和Flash Attention进一步加速,适配不同硬件环境。

现存局限

  1. 多查询支持不足:WeDetect-Ref是二进制分类模型,单次前向传播只能处理一个查询,多查询需多次推理后合并结果(但因速度足够快,实际影响较小);

  2. 小样本极端场景:在极少数超小众类别或极模糊图像上,检索精度仍有提升空间。

五、一句话总结

WeDetect家族以“检索”为核心,通过无融合双塔架构、多粒度数据训练和功能化模型设计,首次实现了开放词汇目标检测“速度、精度、灵活性”的三重突破,为实时智能视觉应用提供了高效可行的解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:19:22

企业数据安全生死线:MCP加密认证未达标的3个严重后果

第一章:企业数据安全生死线:MCP加密认证未达标的3个严重后果企业在数字化转型过程中,数据传输的安全性依赖于严格的加密标准。MCP(Managed Cryptographic Protocol)作为核心加密认证机制,其合规性直接关系到…

作者头像 李华
网站建设 2026/4/16 11:01:30

STM32CubeProgrammer效率提升:从3小时到3分钟的秘诀

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一套STM32CubeProgrammer效率工具包,包含:1) 自动化脚本生成器(根据硬件连接自动生成擦除-编程-校验脚本);2) 多核并行编程控制器&#xff…

作者头像 李华
网站建设 2026/4/16 1:37:27

UI自动化测试入门:小白也能学会

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个适合新手的UI自动化测试学习项目,包含:1) 基础环境搭建指南 2) 简单Demo应用 3) 分步教学测试脚本 4) 常见问题解答 5) 交互式练习环境。使用Pytho…

作者头像 李华
网站建设 2026/4/16 11:05:29

COMDLG32.OCX文件缺失 打不开应用程序 下载方法免费分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华
网站建设 2026/4/16 11:08:13

学术论文摘要互译:Hunyuan-MT-7B能否胜任

Hunyuan-MT-7B能否胜任学术论文摘要互译? 在人工智能与生命科学等领域,每天都有成百上千篇英文论文上线。对于大量依赖前沿研究的中文科研工作者来说,如何快速、准确地理解这些文献的核心内容,已经成为日常工作中不可回避的挑战。…

作者头像 李华
网站建设 2026/4/15 13:34:00

零基础教程:用简单代码实现QQ空间数据备份

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个简单的QQ空间数据导出脚本,要求:1.使用最基本的Python语法 2.仅依赖requests库 3.实现基础日志导出功能 4.代码不超过200行 5.包含详细注释说明每步…

作者头像 李华