news 2026/4/16 12:18:40

教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
教程上新丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍

在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 2023 年 4 月发布的人工智能通用模型,提出了针对图像和视频的可提示分割任务,主要支持基于点、框或掩码的提示来分割单个目标。

已推出的 SAM、SAM 2 模型在图像分割领域取得了显著进展,但仍未实现在输入内容中自动寻找并分割某一概念的所有实例。为填补这一空白,Meta 推出最新迭代版本 SAM 3,新版本不仅显著超越了前代模型的可提示视觉分割(PVS)性能,更率先为可提示概念分割(PCS)任务确立了新标准。

SAM 3 在点击提示的视觉分割方面(左图)超越了 SAM 2 并引入了新的可提示概念分割功能(右图)

SAM 3 架构包含一个检测器(detector)与一个跟踪器(tracker),二者共享同一视觉编码器。检测器基于 DETR 框架构建,能够接收文本、几何信息或示例图像作为条件输入。为应对开放词汇概念检测的挑战,研究人员引入了一个独立的「存在头(presence head)」,以此解耦识别与定位过程。

跟踪器则沿用了 SAM 2 的 Transformer 编码器-解码器架构,支持视频分割与交互式优化。这种检测与跟踪分离的设计,有效避免了两项任务之间的冲突:检测器需要保持身份无关性,而跟踪器的核心目标正是在视频中区分并维持不同对象的身份。

SAM 3 架构图

SAM 3 在基准测试 SA-Co 的图像和视频 PCS 任务上取得了 SOTA 结果,性能是前代系统的 2 倍,且在 H200 GPU 上,新版本处理包含超 100 个检测对象的单张图像仅需 30 毫秒。模型还能扩展到 3D 重建领域,助力家装预览、创意视频编辑和科学研究等多场景应用,为计算机视觉的未来发展提供强大动力。

「SAM3:视觉分割模型」已上线至 OpenBayes 公共教程板块,快来开启你的创作之旅吧!

教程链接:

https://go.openbayes.com/pnzQk

查看论文:

https://arxiv.org/abs/2511.16719

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com,在「公共教程」页面,选择「SAM3:视觉分割模型」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示

Demo 运行页面提供 Image Segmentation、Video Text Prompting、Video Point/Box Prompting 三个功能,仅支持英文输入。本教程以 Video Text Prompting 为例。

将测试视频上传后,在「Text Prompt(s)」处输入需要识别分割的名词短语,依次点击「Apply Text Prompt(s)」「Propagate across video」以应用提示词,最后点击「Render MP4 for smooth playback」即可生成带有高亮识别目标的视频结果。

一起来看看小贝使用近期热映的《疯狂动物城2 》的预告片段进行的测试👇

教程链接:

https://go.openbayes.com/pnzQk

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:15:46

Wan2.2-T2V-A14B助力农业合作社制作农产品推广视频

Wan2.2-T2V-A14B:当AI视频遇上田间地头 🌾🎬 你有没有想过,一个地处偏远山区的苹果合作社,竟能在抖音上日更一条堪比纪录片质感的推广视频?没有摄影师、没有剪辑师、甚至没有专业文案——他们只靠一句话&am…

作者头像 李华
网站建设 2026/4/16 10:39:08

Scispacy终极指南:科学文本处理完整教程

Scispacy终极指南:科学文本处理完整教程 【免费下载链接】scispacy allenai/scispacy: Scispacy 是一个用于自然语言处理的 Python 库,提供了针对科学领域文本的文本处理和分析功能,可以用于文本挖掘,信息提取和知识图谱构建等任务…

作者头像 李华
网站建设 2026/4/16 10:40:59

终极指南:如何快速构建高性能异步Redis客户端

终极指南:如何快速构建高性能异步Redis客户端 【免费下载链接】aioredis-py asyncio (PEP 3156) Redis support 项目地址: https://gitcode.com/gh_mirrors/ai/aioredis-py 在当今高并发的应用场景中,异步编程已经成为提升应用性能的关键技术。ai…

作者头像 李华
网站建设 2026/4/16 0:26:56

c语言——链表

一、顺序表 #include<stdio.h> #include<stdlib.h> #include<errno.h> #pragma once //防止头文件被多次包含 #define N 100 typedef int SLDataType;//静态顺序表 typedef struct SeqList {int* a;int size;//表示数组中存储了多少个数据int capacity;//数…

作者头像 李华
网站建设 2026/4/16 0:13:17

NAT应用

背景IDC机房的公网ip如果想映射到局域网的机器或者使用端口映射功能可以使用Nat转换静态NAT&#xff08;一对一映射&#xff09;映射所有端口NAT Server&#xff08;端口映射&#xff09;如果只想映射特定端口&#xff0c;而不是所有流量Easy IP&#xff08;如果只有一个公网IP…

作者头像 李华
网站建设 2026/4/3 11:58:36

河道防洪防汛监测设备的技术体系与实践应用

一&#xff0e;前言汛期来临之际&#xff0c;河道水位暴涨、暴雨突袭等突发情况直接威胁人民生命财产安全&#xff0c;水位、流量、雨量监测设备作为防洪防汛的“科技哨兵”&#xff0c;凭借精准的数据支撑为灾害预警与调度决策筑牢第一道防线。二&#xff0e;监测设备水位监测…

作者头像 李华