news 2026/6/10 23:11:17

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割

计算机视觉的核心任务旨在赋予机器“看懂”图像的能力,其需求从粗糙到精细,衍生出目标检测、语义分割和实例分割三大关键任务。为高效解决这些任务,研究者设计了各具特色的专用网络架构。本节将系统阐述以R-CNN系列YOLO系列为代表的目标检测网络,以FCNU-Net为代表的语义分割网络,以及作为实例分割基准的Mask R-CNN。这些架构不仅是解决特定任务的工具,其设计思想也深刻反映了计算机视觉从区域识别到像素级理解的演进脉络。

11.4.1 目标检测:从区域提议到端到端回归

目标检测的任务是定位图像中所有感兴趣的目标(用边界框表示)并识别其类别。其技术路线主要分为两阶段(Two-Stage)检测器和单阶段(One-Stage)检测器。

11.4.1.1 R-CNN系列:两阶段检测的演进

两阶段检测器首先生成可能包含目标的候选区域(Region Proposals),再对每个候选区域进行分类和边界框精修。R-CNN系列是这一范式的典型代表。

  1. R-CNN(Regions with CNN features):开创性地将CNN引入目标检测。其流程为:(1) 使用选择性搜索(Selective Search)生成约2000个候选区域;(2) 将每个区域缩放到固定尺寸,送入预训练的CNN(如AlexNet)提取特征;(3) 使用类别特定的线性支持向量机(SVM)进行分类;(4) 使用线性回归模型对边界框进行精修。R-CNN的主要问题是重复计算(每个候选区域独立通过CNN)和训练测试流程复杂

  2. Fast R-CNN:针对R-CNN的改进,引入了RoI(Region of Interest)池化层。网络首先对整个图像进行一次CNN前向传播,得到共享的特征图;然后,将每个候选区域投影到特征图上,通过RoI池化层将不同尺寸的候选区域特征转换为固定尺寸的特征向量;最后,特征向量被送入两个并行的全连接层,分别进行类别分类边界框回归。Fast R-CNN实现了端到端训练,大幅提升了速度和精度。

  3. Faster R-CNN:该架构的核心创新是用区域提议网络(Region Proposal Network, RPN)取代了耗时的选择性搜索。RPN是一个全卷积网络,在共享的特征图上滑动,为每个位置生成多个不同尺度和长宽比的锚框(Anchor Boxes),并输出每个锚框是“目标”的置信度及其初步的边界框偏移量。RPN与Fast R-CNN检测器共享特征图,实现了候选区域生成、分类和回归的完全端到端训练,是两阶段检测器的里程碑。

下表概括了R-CNN系列的核心演进:

模型区域提议方法核心创新主要优势遗留问题
R-CNN选择性搜索CNN特征提取、SVM分类、边界框回归首次展示CNN特征对检测的有效性速度慢、存储开销大、流程多阶段
Fast R-CNN选择性搜索RoI池化层、多任务损失(分类+回归)共享计算、端到端训练、速度显著提升区域提议仍是计算瓶颈
Faster R-CNNRPN(区域提议网络)RPN与检测网络共享特征、锚框机制真正意义上的端到端、精度与速度的平衡整体速度仍不及单阶段检测器
11.4.1.2 YOLO系列:单阶段实时检测的标杆

与两阶段方法不同,单阶段检测器将目标检测视为一个单一的回归问题,直接从图像像素预测边界框和类别概率,以实现极高的检测速度。YOLO(You Only Look Once)是其中最著名的系列。

  1. 核心思想与早期版本:YOLOv1将输入图像划分为S×SS \times SS

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 3:33:29

数字人隐私保护设计:Linly-Talker数据最小化原则

数字人隐私保护设计:Linly-Talker数据最小化实践 在虚拟主播24小时不间断直播、AI客服秒回用户提问的今天,数字人正以前所未有的速度渗透进我们的生活。但你是否想过——当你说出“帮我查一下账户余额”时,这段语音去了哪里?当你上…

作者头像 李华
网站建设 2026/6/9 19:42:32

收藏!程序员转行大模型开发:3个新兴方向+能力拆解+避坑指南

在大模型技术重构行业生态的当下,越来越多程序员将转行大模型开发视为职业突破的重要路径。但除了传统的NLP、CV等方向,新兴场景催生的细分岗位同样极具潜力。本文延续小白友好风格,聚焦3个高增长新兴方向,拆解核心能力要求&#…

作者头像 李华
网站建设 2026/6/10 9:14:24

Linly-Talker在城市规划展示中的三维沙盘配合

Linly-Talker在城市规划展示中的三维沙盘配合 在一座现代化的城市规划馆里,一位参观者驻足于中央电子沙盘前,轻声问道:“这片区域未来会建几条地铁线?”话音刚落,屏幕上的虚拟讲解员微微转头,眼神自然地望向…

作者头像 李华
网站建设 2026/6/10 11:00:12

【AI普惠革命】:Open-AutoGLM让发展中国家逆袭的3大关键路径

第一章:Open-AutoGLM 数字鸿沟缩小助力在人工智能技术迅猛发展的今天,如何让边缘地区和资源受限群体平等地享受AI红利,成为行业关注的焦点。Open-AutoGLM 作为一款开源的自动化语言模型框架,致力于通过轻量化架构与本地化部署能力…

作者头像 李华
网站建设 2026/6/10 11:01:27

【第67套】邮电之首,难度骤降。

小马哥Tips:今天分享的是北京邮电大学804信号与系统部分试题及其解析。本套试题难度分析:北京邮电大学2025年真题试题相比往年大幅下降!难度不高,但题量不小,本套试题考察知识点很全面。全面覆盖了信号周期求解&#x…

作者头像 李华