- 什么是计算机视觉(CV)?
让计算机理解数字图像或视频的内容。
人类可以瞬间认出猫、读出路牌、判断远近,但对计算机来说,图像只是一堆0-255的像素数字。
👁️ 核心任务:从像素矩阵中提取有意义的信息。
- 四大经典任务
图像分类:这张图是猫还是狗?
目标检测:找出图中所有物体及其位置(画框)
图像分割:每个像素属于哪个物体(精确到轮廓)
姿态估计:识别人体关节关键点
- 卷积神经网络(CNN)——视觉革命的引擎
为什么普通DNN不适合图像?
全连接层参数量巨大:100x100的图,输入层就有1万个节点,第一层隐藏层若1000个节点,权重1000万,易过拟合且慢。
CNN的三大利器
A. 卷积层:用一个小的“卷积核”在图像上滑动,提取局部特征(边缘、纹理)。
例如3x3的核可以检测垂直边缘
多个核可以检测不同特征
B. 池化层:降采样(如2x2区域取最大值),减少尺寸,增加平移不变性。
C. 全连接层:最后将特征图展平,做分类。
经典CNN架构简图
Input(224x224x3)-