1.AlexNet介绍:

近几年深度学习的爆发实际上是从AlexNet开始的。说到AlexNet不得不提一下image net数据集,从2005年以来机器学习蓬勃发展,人脸识别,图像分类等任务得到了广泛的关注。image net数据集的诞生,为图像分类识别等任务提供了一个统一的评估平台,为此类算法的迭代提供了依据。AlexNet的出现大幅度刷新了image net图像分类得分,从此深度学习在图像领域名声大噪,各类论文出现井喷。

 

2.AlexNet网络结构:

AlexNet网络结构如下图:

图像分类网络VGG在中草药识别任务中的应用_卷积

第一层:卷积层。输入图像大小为224*224*3,卷积核数量为96个,卷积核大小为11*11*3.注意这里输入图像和mnist不同,mnist是单通道图像,但是image net是多通道输入,所以卷积核针对多通道进行了相应的修改,变为了11*11*3.这里卷积核的size是比LeNet要大的,我猜是作者想尽可能的保证输入图像特征抽取的完整,但是11*11的卷积后面被证明过大,导致了较大的计算耗时,并且对预测精度提高并不明显(这是为什么?  这里分析了为啥小的卷积核更有效)。卷积结束之后,加了一层Local Response Normalization。但是这里有个问题,这个函数后面大家一般加在池化之后,在AlexNet里面却加在了池化之前。这个函数有什么作用呢,其实也是来自生物神经学,归一化的目的就是为了抑制,这个方法增强了AlexNet的范化能力。这个方法的使用最好是搭配激活函数relu,其他激活函数可能并没有这么明显的效果。当然,后面也有人争议这个方法其实并没有什么卵用(Very Deep Convolutional Networks for Large-Scale Image Recognition)。在AlexNet中作者提出了max pooling,选择池化像素的最大值作为输出。最大池化还是平均池化,这个是一个问题。目前主流认为最大池化比平均池化要有优势一点,但是选用什么样的池化方式其实和你的数据集有关系 

第二层:卷积核为5*5*48*256,卷积size比之前减小了,但是卷积核数量却变多了。目前一般cnn的套路好像都是越到后面卷积核数量越大。其余结构和第一层基本不变。

第三层:卷积核为3*3*256*384,卷积size继续变小。第三层没有LRN和pool(这是为啥?)

第四层:卷积核为3*3*384*384,没有LRN与pool

第五层:卷积核为3*3*384*256,没有LRN,直接进行max pooling

后面第六,七,八层全为全链接网络。全链接网络中使用了dropout,防止网络的过拟合。

AlexNet的主要贡献:

1.数据增强。主要针对图像数据,比如进行随机旋转,随机剪裁等增加图像样本,同时提高模型范化性能。

2.Relu,解决了梯度消失的问题,为更深的网络结构打下基础。

3.dropout,一个比较经典的对抗过拟合的方法,在alexnet里面首次提出。

4.LRN,局部响应归一化。

5.多gpu训练。alexnet采用了两块gpu进行模型分布式训练,提高了训练速度。