*学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。
CNN由许多神经网络层组成。卷积和池化这两种不同类型的层通常是交替的。网络中每个滤波器的深度从左到右增加。最后通常由一个或多个全连接的层组成:
Convnets背后有三个关键动机:局部感受野、共享权重和池化。
如果想保留图像中的空间信息,那么用像素矩阵表示每个图像是很方便的。然后,编码局部结构的简单方法是将相邻输入神经元的子矩阵连接成属于下一层的单隐藏层神经元。这个单隐藏层神经元代表一个局部感受野。请注意,此操作名为“卷积”,此类网络也因此而得名。
当然,可以通过重叠的子矩阵来编码更多的信息。例如,假设每个子矩阵的大小是5×5,并且将这些子矩阵应用到28×28像素的MNIST图像。然后,就能够在下一隐藏层中生成23×23的局部感受野。事实上,在触及图像的边界之前,只需要滑动子矩阵23个位置。
定义从一层到另一层的特征图。当然,可以有多个独立从每个隐藏层学习的特征映射。例如,可以从28×28输入神经元开始处理MNIST图像,然后(还是以5×5的步幅)在下一个隐藏层中得到每个大小为23×23的神经元的k个特征图。
栗子:
运用CNN对CIFAR-10中的图片进行分类
导入几个utils和核心层用于实现ConvNet、dropout、fully_connected和max_pool。另外,导入一些对图像处理和图像增强有用的模块。请注意,TFLearn为ConvNet提供了一些已定义的更高级别的层,这能够专注于代码的定义。
from __future__ import division, print_function, absolute_import
import tflearn
from tflearn.data_utils import shuffle, to_categorical
from tflearn.layers.core import input_data, dropout, fully_connected
from tflearn.layers.conv import conv_2d, max_pool_2d
from tflearn.layers.estimator import regression
from tflearn.data_preprocessing import ImagePreprocessing
from tflearn.data_augmentation import ImageAugmentation
加载CIFAR-10数据,并将其分为X_train和Y_train,X_test用于测试,Y_test是测试集的标签。对X和Y进行混洗可能是有用的,因为这样能避免训练依赖于特定的数据配置。最后一步是对X和Y进行独热编码:
from tflearn.datasets import cifar10
(X, Y), (X_test, Y_test) = cifar10.load_data()
X, Y = shuffle(X, Y)
Y = to_categorical(Y, 10)
Y_test = to_categorical(Y_test, 10)
# Real-time data preprocessing
img_prep = ImagePreprocessing()
img_prep.add_featurewise_zero_center()
img_prep.add_featurewise_stdnorm()
使用ImagePreprocessing()对数据集进行零中心化(即对整个数据集计算平均值),同时进行STD标准化(即对整个数据集计算标准差)。TFLearn数据流旨在通过CPU先对数据进行预处理,然后在GPU上加速模型训练。
img_aug = ImageAugmentation()
img_aug.add_random_flip_leftright()
img_aug.add_random_rotation(max_angle=25.)
通过随机左右翻转和随机旋转来增强数据集。这一步是一个简单的技巧,用于增加可用于训练的数据:
network = input_data(shape=[None, 32, 32, 3],
data_preprocessing=img_prep,
data_augmentation=img_aug)
network = conv_2d(network, 32, 3, activation='relu')
network = max_pool_2d(network, 2)
network = conv_2d(network, 64, 3, activation='relu')
network = conv_2d(network, 64, 3, activation='relu')
network = max_pool_2d(network, 2)
network = fully_connected(network, 512, activation='relu')
network = dropout(network, 0.5)
network = fully_connected(network, 10, activation='softmax')
network = regression(network, optimizer='adam',
loss='categorical_crossentropy',
learning_rate=0.001)
使用之前定义的图片预处理和图片增强操作创建卷积网络。网络由三个卷积层组成。第一层有32个卷积核,尺寸是3×3,激活函数用ReLU,这一层后使用max_pool层用于缩小尺寸。然后是两个卷积核级联,卷积核的个数是64,尺寸是3×3,激活函数是ReLU。之后依次是max_pool层,具有512个神经元、激活函数为ReLU的全连接的网络,设置dropout概率为50%。最后一层是全连接层,利用10个神经元和激活函数softmax对10个手写数字进行分类。请注意,这种特殊类型的ConvNet在CIFAR-10中非常有效。其中,使用Adam优化器(categorical_crossentropy)学习率是0.001:
model = tflearn.DNN(network, tensorboard_verbose=0)
model.fit(X, Y, n_epoch=50, shuffle=True, validation_set=(X_test, Y_test),
show_metric=True, batch_size=96, run_id='cifar10_cnn')
Training Step: 26049 | total loss: 0.32852 | time: 119.623s
| Adam | epoch: 050 | loss: 0.32852 - acc: 0.8853 – iter: 49920/50000
Training Step: 26050 | total loss: 0.32454 | time: 127.685s
| Adam | epoch: 050 | loss: 0.32454 - acc: 0.8853 | val_loss: 0.64020 - val_acc: 0.8192 – iter: 50000/50000