初读:2021年5月26日至2021年5月28日

啃书进度会在目录中标出来。本次目标是完成第5章 5.4节 应用:图片分类(P61-P64)

图像分类 多任务学习 图像分类应用_算法

图片分类 对于人来说是很简单的事情,但是对计算机来说,却不容易。在传统图像分类方法中,人们手工设计一些特征符,提取图像上一些局部的外表、形状、纹理等,再利用标准分类器,如支持向量机等,进行分类,其中还包含大量图片处理的方法技巧。卷积神经网络的诞生,大大推进了图片分类的发展,通过深层次的神经网络,可以直接从原始图像层面提取深层次的语义,让计算机有能力理解图片中的信息,从而将不同类别区分开来。书中图5.10展示了不同卷积核可以对图像进行不同类型的操作,例如提取边缘轮廓、图像锐化等,与图像识别利用人工提取特征不同,卷积神经网络可以根据具体任务需求,自发地学习特征提取的方式,不仅实现了更好的图片分类效果,而且适用于更多的任务数据场景。

图片分类最经典的应用,要数MNIST手写数字识别了。书中图5.11展示了数据样本为0~9这10个手写数字,每个图像为28×28像素的灰度图。如果使用全连接网络进行分类,需要把每个图展开成长度为784的向量,这样一方面会丢失图片在空间上的信息,另一方面会造成训练参数过多,很容易过拟合。而卷积神经网络则很好地解决了这两个问题,首先卷积核的操作不会改变空间像素分布,其次由于一个卷积核在一张图像上共享,可以更好地解决过拟合问题。

卷积先通过低层的卷积核 ,提取数字的轮廓信息,对图片本身进行降维,再逐步将这些信息抽象成计算机所能理解的特征,最终通过全实现对数字的分类。书中图5.12展示的是如何将神经网络分类错误的图像筛选出来,会发现其中很多错误就算是人类也难以避免,说明卷积神经网络确实学习到了的数字语义信息。

再来看一组彩色图片分类的应用——CIFAR10数据的分类。这个数据集包含6万张32×32的彩色图像,代表飞机、汽车、鸟等10个类别的事物,它的语义信息明显比数字中的更为复杂,同时输入的彩色数据具有3个通道而不是只有灰度一个通道。

书中图5.14展示了卷积中不同层中卷积核 信息,从左到右依次由浅入深,可以观察到,浅层的卷积核 用于学习边的特征,随着层次加深,逐渐学习到了局部轮廓,甚至整体语义的信息,而这些卷积核 的初始状态均为随机噪声。可以看到卷积具有强大的学习能力,正是基于这些能力, 计算机视觉在2012年得到飞速发展。

随着卷积的发展,图片分类的应用也被拓宽到更广的领域,如对照片中复杂物体进行分类、人脸识别或植被鉴别等。总之,图片分类应用,离不开卷积神经网络的贡献。