图像分割:

        1.语义分割:把每个像素都打上标签(这个像素点是人,树,背景等)。语义分割只区分类别,不区分类别中具体单位。相当于逐像素做二分类,判断是属于前景还是背景。

        2.实例分割:不仅要区分类别,还要区分类别中每一个个体。

对数损失函数-二元交叉熵损失函数(二分类):逐像素的交叉熵

        1.考虑样本均衡问题

       根据前景和背景的比例做一个权重项:

                

图像识别二分类模型 图像分割二分类_人工智能

                

图像识别二分类模型 图像分割二分类_权重_02

        

图像识别二分类模型 图像分割二分类_权重_03

表示样本i的label,正类为1,负类为0        

图像识别二分类模型 图像分割二分类_权重_04

表示样本i预测为正类的概率,当预测为正类的概率越大,损失越小        2.样本也有难易之分,就像玩游戏一样,难度越高的boss奖励越高。在以下的式子中,通过设置

图像识别二分类模型 图像分割二分类_人工智能_05

的值,让难识别的像素点权重大一些,容易识别的则权重小一些:                

图像识别二分类模型 图像分割二分类_计算机视觉_06

        Gamma通常设置为2,例如正则预测样本概率为0.95,

图像识别二分类模型 图像分割二分类_人工智能_07

;如果正则预测样本概率是0.5,则

图像识别二分类模型 图像分割二分类_计算机视觉_08

。(相当于样本的难易权值),再加上正负样本比例设置的权值,那么这就是focal loss。公式如下:                

图像识别二分类模型 图像分割二分类_人工智能_09

MIoU评估标准:

        IoU(Intersection over Union,交并比)

        多分类任务时,IoU=(A∩B)/(A∪B),A∩B是两个区域段交集,A∪B是两个区域段并集

        MIoU:就是计算所有类别的平均值,一般当做分割任务评估指标。

        eg:

            

图像识别二分类模型 图像分割二分类_图像识别二分类模型_10

             

图像识别二分类模型 图像分割二分类_权重_11

        效果图:

图像识别二分类模型 图像分割二分类_图像识别二分类模型_12

图像识别二分类模型 图像分割二分类_卷积_13

卷积神经网络:

        与传统网络的区别是其输入的数据是个3维的矩阵h*w*c(channel),多了个深度depth。

        整体架构:

                输入层

                卷积层:把图像分成每个小区域,然后和权重矩阵点乘相加得到新的特征矩阵

                        涉及参数:

                                滑动窗口步长

                                卷积核尺寸

                                边缘填充

                                卷积核个数

                        卷积结果计算公式:

                                长度:

图像识别二分类模型 图像分割二分类_卷积_14

                                宽度:

图像识别二分类模型 图像分割二分类_图像识别二分类模型_15

                                其中

图像识别二分类模型 图像分割二分类_权重_16


图像识别二分类模型 图像分割二分类_图像识别二分类模型_17

表示输入的宽度、长度;

图像识别二分类模型 图像分割二分类_计算机视觉_18


图像识别二分类模型 图像分割二分类_权重_19

表示输出特征图的宽度、长度;F表示卷积核长和宽的大小;S表示滑动窗口的步长;P表示边界填充(加几圈0)。

                        卷积参数共享:对每个区域的卷积权重参数都设置成一样的,可以大大减少计算参数。

                池化层(pooling):做压缩的,也可以说是下采样。

                        最大池化

                        平均池化:经大部分学者证实,效果不如最大池化

                全连接层

        图像颜色通道:

                彩色图像是有RGB3个颜色通道的,在做计算时,要让每个颜色通道分别去做计算(R channel,G channel,B channel)。最终再把每个通道卷积完的结果加在一起,然后再加一个偏置项(bias)就可以得到最终结果了。  

        感受野:

                当前最后那个值,是由前面多少个原始数据计算得到的,就可以感受到多大范围。一般情况下希望感受野越大越好。堆叠小的卷积核所需要的的参数更少一些,并且卷积过程越多,特征提取就越细致,加入的非线性变换也就随之增多,还不会增加权重参数个数,这就是VGG网络的基本出发点,用小的卷积核来完成整体特征提取操作。

        神经网络层数:

                在神经网络中,只有带参数计算的才能叫一层神经网络。例如卷积层、全连接层就是带参数计算的,而激活层、池化层都是不带参数计算的。