图像分类网络VGG在中草药识别任务中的应用

转载

mob6454cc770d06 2024-07-18 16:41:03

1.AlexNet介绍：

近几年深度学习的爆发实际上是从AlexNet开始的。说到AlexNet不得不提一下image net数据集，从2005年以来机器学习蓬勃发展，人脸识别，图像分类等任务得到了广泛的关注。image net数据集的诞生，为图像分类识别等任务提供了一个统一的评估平台，为此类算法的迭代提供了依据。AlexNet的出现大幅度刷新了image net图像分类得分，从此深度学习在图像领域名声大噪，各类论文出现井喷。

2.AlexNet网络结构：

AlexNet网络结构如下图：

图像分类网络VGG在中草药识别任务中的应用_卷积

第一层：卷积层。输入图像大小为224*224*3，卷积核数量为96个，卷积核大小为11*11*3.注意这里输入图像和mnist不同，mnist是单通道图像，但是image net是多通道输入，所以卷积核针对多通道进行了相应的修改，变为了11*11*3.这里卷积核的size是比LeNet要大的，我猜是作者想尽可能的保证输入图像特征抽取的完整，但是11*11的卷积后面被证明过大，导致了较大的计算耗时，并且对预测精度提高并不明显（这是为什么？这里分析了为啥小的卷积核更有效）。卷积结束之后，加了一层Local Response Normalization。但是这里有个问题，这个函数后面大家一般加在池化之后，在AlexNet里面却加在了池化之前。这个函数有什么作用呢，其实也是来自生物神经学，归一化的目的就是为了抑制，这个方法增强了AlexNet的范化能力。这个方法的使用最好是搭配激活函数relu，其他激活函数可能并没有这么明显的效果。当然，后面也有人争议这个方法其实并没有什么卵用（Very Deep Convolutional Networks for Large-Scale Image Recognition）。在AlexNet中作者提出了max pooling，选择池化像素的最大值作为输出。最大池化还是平均池化，这个是一个问题。目前主流认为最大池化比平均池化要有优势一点，但是选用什么样的池化方式其实和你的数据集有关系

第二层：卷积核为5*5*48*256，卷积size比之前减小了，但是卷积核数量却变多了。目前一般cnn的套路好像都是越到后面卷积核数量越大。其余结构和第一层基本不变。

第三层：卷积核为3*3*256*384，卷积size继续变小。第三层没有LRN和pool（这是为啥？）

第四层：卷积核为3*3*384*384，没有LRN与pool

第五层：卷积核为3*3*384*256，没有LRN，直接进行max pooling

后面第六，七，八层全为全链接网络。全链接网络中使用了dropout，防止网络的过拟合。

AlexNet的主要贡献：

1.数据增强。主要针对图像数据，比如进行随机旋转，随机剪裁等增加图像样本，同时提高模型范化性能。

2.Relu，解决了梯度消失的问题，为更深的网络结构打下基础。

3.dropout，一个比较经典的对抗过拟合的方法，在alexnet里面首次提出。

4.LRN，局部响应归一化。

5.多gpu训练。alexnet采用了两块gpu进行模型分布式训练，提高了训练速度。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。