目前解决图像分类问题,比较流行的方法是上。这种方法主要有两部分组成:一个是,它是原始图像数据到类别分值的映射。另一个是,它是用来量化预测分类标签的得分与真实标签之间一致性的。该方法可转化为一个最优化问题,在最优化过程中,将通过更新评分函数的参数来最小化(梯度下降)损失函数值
sigmod:
ReLU激活函数:
1.线性分类器
定义:每个分类类别的分值是权重和图像的矩阵乘,得到分数数值。
损失函数:多类支持向量机损失 Multiclass Support Vector Machine Loss
SVM的损失函数定义:
用预测错误的得分减去预测正确的得分加上一个容错
N为图片样本的个数,损失函数的大小不和样本图片的数量有关系。
正则化
解决相同的评分结果的权重参数w可能是无穷多个的,加入正则化惩罚(将W中所有元素平方后求和)
损失函数的最终版:
2.Softmax分类器
该元素的softmax值,就是该元素的指数与所有元素指数和的比值。
定义:最后的输出是每个分类被取到的概率,归一化保证和为1。
损失函数:整个数据集的loss的计算公式与Multiclass SVM相同:
对单个样本的loss的形式都是
3.卷积神经网络(CNN)
定义:是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。 它包括卷积层(convolutional layer)和池化层(pooling layer)。组成:输入层、卷积层、激活函数、池化层、全连接层。
卷积:在原始的输入上进行特征的提取。在原始输入上用多个filter这个固定尺寸的助手一个小区域一个小区域进行特征的提取,最终得到多个特征图。(得到的特征图是来自一个RGB三个通道的特征图之和)
所谓的权值共享就是说,给一张输入图片,用一个filter去扫这张图,filter里面的数就叫权重,这张图每个位置是被同样的filter扫的,所以权重是一样的,也就是共享。
池化:对特征图进行特征压缩,池化也叫做下采样。选择原来某个区域的max或mean代替那个区域,整体就浓缩了。