本文将介绍提高神经网络的性能和泛化能力的三种高级技巧。
1)循环dropout(recurrent dropout)。这是一种特殊的内置方法,在循环层中使用dropout来降低过拟合。
2)堆叠循环层(stacking recurrent layers)。这会提高网络的表示能力(代价是更高的计算负荷)。
3)双向循环层(bidirectional recurrent layer)。将相同的信息以不同的方式呈现给循环网络,可以提高精度并缓解遗忘问题。
基准方法的作用:
1)一种基于常识的、非机器学习的基准方法
深度学习建模前,先尝试一种基于常识的简单方法,它可以作为合理性检查;同时,建立一个基准,更高级的机器学习模型【深度模型】需要打败这个基准才能表现出其有效性。
面对一个尚没有解决方案的新问题时,这种基于常识的基准方法会有用。
例子:
不平衡分类任务,其中某些类别比其他类别更常见。如果数据集中包含90%的类别A实例和10%的类别B实例,那么分类任务的一种基于常识的方法就是对新样本始终预测类别"A“。这种分类器的总体精度为90%,因此任何基于学习到方法在精度高于90%时才能证明其有效性。
有时候基准方法可能很难打败。
2)一种基本的机器学习方法
在尝试机器学习方法之前,建立一个基于常识的基准方法是很有用的;同样,在开始研究复杂且计算代价很高的模型(比如 RNN)之前,尝试使用简单且计算代价的机器学习模型也是很有用的,比如小型的密集连接网络。这可以保证进一步增加问题复杂度是合理的,并且会带来真正的好处。
一、dropout
dropout是降低过拟合的一种经典技术,即将某一个层的输入单元随机设为0,其目的是打破该层训练数据中的偶然相关性。
如何在循环网络中正确使用dropout?
在循环层前面应用dropout,这种正则化会妨碍学习过程。2015年,在关于贝叶斯深度学习的博士论文中,Yarin Gal确定了再循环网络中使用dropout的正确方法:每个时间步应该使用相同的dropout掩码(dropout mask,相同模式的舍弃单元),而不是让dropout掩码随着时间步的增加而随机变化。此外,为了对GRU、LSTM等循环层得到的表示做正则化,应该将不随时间变化的dropout掩码应用于层的内部循环激活(叫作循环dropout掩码)。对每个时间步使用相同的dropout掩码,可以让网络沿着时间正确地传播其学习误差,而随时间随机变化的dropout掩码则会破坏这个误差信息,并且不利于学习过程。
二、循环层堆叠
模型不在过拟合,但可能遇到性能瓶颈,此时应该考虑增加网络容量。只要是过拟合不是太严重,那么很可能是容量不足的问题。
增加网路容量的通常做法是增加每层单元数或增加 层数。循环层堆叠(recurrent layer stacking)是构建更加强大的循环网络的经典方法。
三、双向循环
双向RNN是一种常见的RNN变体,它在某些任务上的性能比普通RNN更好。常用于NLP,可谓是深度学习对NLP的瑞士军刀。
RNN特别依赖于顺序或者时间,RNN按照顺序处理输入序列的时间步,而打乱时间步或反转时间步会完全改变RNN从序列中提取的表示。正是由于这个原因,如果顺序对问题很重要(比如温度预测问题),RNN的表现会好很多。双向RNN利用了RNN的顺序敏感性:它包含两个普通RNN,比如GRU层和LSTM层,每个RN分别沿着一个方向对输入序列进行处理(时间正序和时间逆序),然后将它们合并在一起。通过沿这两个方向处理序列,双向RNN能够捕捉到可能被单向RNN忽略的模式。
通过使用正序和逆序两个序列分别训练评估LSTM:
# 使用逆序序列训练LSTM
from keras.datasets import imdb
from keras.preprocessing import sequence
from keras import layers
from keras.models import Sequential
max_features = 10000 # 作为特征的单词个数
maxlen = 500 # 在这么多单词之后截断文本(这些单词都属于钱max_feautres个最常见的单词)
# 加载数据集
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
# 将序列反转
x_train = [x[::-1] for x in x_train]
x_test = [x[::-1] for x in x_test]
# 填充序列
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
model = Sequential()
model.add(layers.Embedding(max_features, 128))
model.add(layers.LSTM(32))
model.add(layers.Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['acc'])
history = model.fit(x_train, y_train,
epochs=10,
batch_size=128,
validation_split=0.2)正序仅在数据集处“序列反转”两行代码注释掉即可。
两者模型性能几乎相同。再这样一个文本数据集上,逆序处理的效果与正序处理一样好,这证实了一个假设:虽然单词顺序对理解语言很重要,但使用哪种顺序并不重要。重要的是,在逆序序列上训练的RNN学到的表示不同于在原始序列上学到的表示。在机器学习中,如果一种数据表示不同但有用,那么总是值得加以利用,这种表示与其他表示的差异越大越好,他们提供了查看数据的全新角度,抓住了数据中被其他方法忽略的内容,因此可以提高模型在某个任务上的性能。这是集成(ensembling)方法背后的直觉。

四、其他更多尝试
1)在堆叠循环层中调节每层的单元个数。当前取值在很大程度上是任意选择的,因此可能不是最优的。
2)调节RMSprop优化器的学习率
3)尝试使用LSTM层代替GRU层。
4)在循环层上面尝试使用更大的密集连接回归器,即更大的Dense层或Dense层的堆叠。
5)与单个RNN层相比,堆叠RNN的表示能力更强大。但它的计算代价也更高,因此不一定总是需要。虽然他在机器翻译等复杂问题上很有效,但在较小、较简单的问题上可能不一定有用。
6)双向RNN从两个方向查看一个序列,它对自然语言处理问题非常有用。但如果在序列数据中最近的数据比序列开头包含更多的信息,那么这种方法的效果就不明显。
















