计算机视觉分类
(a) lmage Classification:
图像分类,用于识别图像中物体的类别(如: bottle、cup. cube) 。
(b) object Localization:
目标检测,用于检测图像中每个物体的类别,并准确标出它们的位置。
(c) Semantic Segmentation:
图像语义分割,用于标出图像中每个像素点所属的类别,属于同一类别的像素点用一个颜色标识。
(d) Instance Segmentation:
实例分割,值得注意的是。(b)中的目标检测任务只需要标注出物体位置,而(d)中的实例分割任不仅要标注出物体位置,还需要标注出物体的外形轮廓。
CNN五层网络结构
1、数据输入层/ Input layer
2、卷积层/CONV layer (提取图像中的局部特征)
卷积层被称为过滤器(filter)或者内核(kernel)或卷积核
对输入图像和滤波矩阵(恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是卷积,也是卷积神经网络的名字来源。
卷积计算
填充值(1/边界上填充0值;2/避免边缘数据丢失)
步幅(为了减小输入参数的数目,减少计算量)
3、ReLy 激励层/ReLg layer
wx+b
激活函数(加入非线性因素)
作用:
提高模型鲁棒性(抗干扰能力),非线性表达能力,缓解梯度消失问题、加速模型收敛 将当前特征空间映射转换到另一个空间,让数据能够更好的被分类
非线性激活函数
假若网络中全部是线性部件,那么线性的组合还是线性,与单独一个线性分类器无异。 网络更加强大,学习复杂的事物,复杂的表单数据,从输入输出之间生成非线性映射。
4、池化层/Pooling layer(降低参数量级)
平均池化(mean pooling)
最大池化(max pooling)
目的:
使特征图变小,简化网络计算复杂度特征压缩,提取主要特征
加快计算速度
防止过拟合
缩小最后全连接层中节点的个数,减少整个神经网络参数
5、全连接层/EC layer
AI Studio
CNN实现猫狗分类 - 飞桨AI Studio (baidu.com)
环境
b008c158886547649a9b06f6ae96df44447427fe65db4bac82b609334bd0d25c (933×459) (bcebos.com)实践总体过程和步骤如下图
结果