图像分类多任务学习图像分类应用

转载

mob64ca14085c24 2024-03-08 21:42:40

文章标签 图像分类多任务学习 python 算法卷积核卷积神经网络 文章分类 whisper AIGC

初读：2021年5月26日至2021年5月28日

啃书进度会在目录中标出来。本次目标是完成第5章 5.4节应用：图片分类（P61-P64）

图像分类多任务学习图像分类应用_算法

图片分类对于人来说是很简单的事情，但是对计算机来说，却不容易。在传统图像分类方法中，人们手工设计一些特征符，提取图像上一些局部的外表、形状、纹理等，再利用标准分类器，如支持向量机等，进行分类，其中还包含大量图片处理的方法技巧。卷积神经网络的诞生，大大推进了图片分类的发展，通过深层次的神经网络，可以直接从原始图像层面提取深层次的语义，让计算机有能力理解图片中的信息，从而将不同类别区分开来。书中图5.10展示了不同卷积核可以对图像进行不同类型的操作，例如提取边缘轮廓、图像锐化等，与图像识别利用人工提取特征不同，卷积神经网络可以根据具体任务需求，自发地学习特征提取的方式，不仅实现了更好的图片分类效果，而且适用于更多的任务数据场景。

图片分类最经典的应用，要数MNIST手写数字识别了。书中图5.11展示了数据样本为0~9这10个手写数字，每个图像为28×28像素的灰度图。如果使用全连接网络进行分类，需要把每个图展开成长度为784的向量，这样一方面会丢失图片在空间上的信息，另一方面会造成训练参数过多，很容易过拟合。而卷积神经网络则很好地解决了这两个问题，首先卷积核的操作不会改变空间像素分布，其次由于一个卷积核在一张图像上共享，可以更好地解决过拟合问题。

卷积先通过低层的卷积核，提取数字的轮廓信息，对图片本身进行降维，再逐步将这些信息抽象成计算机所能理解的特征，最终通过全实现对数字的分类。书中图5.12展示的是如何将神经网络分类错误的图像筛选出来，会发现其中很多错误就算是人类也难以避免，说明卷积神经网络确实学习到了的数字语义信息。

再来看一组彩色图片分类的应用——CIFAR10数据的分类。这个数据集包含6万张32×32的彩色图像，代表飞机、汽车、鸟等10个类别的事物，它的语义信息明显比数字中的更为复杂，同时输入的彩色数据具有3个通道而不是只有灰度一个通道。

书中图5.14展示了卷积中不同层中卷积核信息，从左到右依次由浅入深，可以观察到，浅层的卷积核用于学习边的特征，随着层次加深，逐渐学习到了局部轮廓，甚至整体语义的信息，而这些卷积核的初始状态均为随机噪声。可以看到卷积具有强大的学习能力，正是基于这些能力，计算机视觉在2012年得到飞速发展。

随着卷积的发展，图片分类的应用也被拓宽到更广的领域，如对照片中复杂物体进行分类、人脸识别或植被鉴别等。总之，图片分类应用，离不开卷积神经网络的贡献。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。