【深度学习：CNN】Dropout解析（2）

转载

荪荪 2021-07-12 09:58:24

dropout是CNN中防止过拟合提高效果的一个大杀器，但对于其为何有效，却众说纷纭。在下读到两篇代表性的论文，代表两种不同的观点，特此分享给大家。观点

费时

容易过拟合

【深度学习：CNN】Dropout解析（2）_RCNN

虽然直观上看dropout是ensemble在分类性能上的一个近似，然而实际中，dropout毕竟还是在一个神经网络上进行的，只训练出了一套模型参数。那么他到底是因何而有效呢？这就要从动机上进行分析了。论文中作者对dropout的动机做了一个十分精彩的类比：

比如要搞一次恐怖袭击，两种方式：
- 集中50人，让这50个人密切精准分工，搞一次大爆破。
- 将50人分成10组，每组5人，分头行事，去随便什么地方搞点动作，成功一次就算。

dropout也能达到同样的效果，它强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，达到好的效果。消除减弱了神经元节点间的联合适应性，增强了泛化能力。

而为了达到ensemble的特性，有了dropout后，神经网络的训练和预测就会发生一些变化。

防止过拟合的方法：
- 提前终止（当验证集上的效果变差的时候）
- L1和L2正则化加权
- soft weight sharing
- dropout
dropout率的选择
- 经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。
- dropout也可以被用作一种添加噪声的方法，直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大（0.8）
训练过程
- 对参数w的训练进行球形限制(max-normalization)，对dropout的训练非常有用。
- 球形半径c是一个需要调整的参数。可以使用验证集进行参数调优
- dropout自己虽然也很牛，但是dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好，比如max-norm regularization就可以防止大的learning rate导致的参数blow up。
- 使用pretraining方法也可以帮助dropout训练参数，在使用dropout时，要将所有参数都乘以1/p。
部分实验结论

该论文的实验部分很丰富，有大量的评测数据。
- maxout 神经网络中得另一种方法，Cifar-10上超越dropout
- 文本分类上，dropout效果提升有限，分析原因可能是Reuters-RCV1数据量足够大，过拟合并不是模型的主要问题
- dropout与其他standerd regularizers的对比
  - L2 weight decay
  - lasso
  - KL-sparsity
  - max-norm regularization
  - dropout
- 特征学习
  - 标准神经网络，节点之间的相关性使得他们可以合作去fix其他节点中得噪声，但这些合作并不能在unseen data上泛化，于是，过拟合，dropout破坏了这种相关性。在autoencoder上，有dropout的算法更能学习有意义的特征（不过只能从直观上，不能量化）。
  - 产生的向量具有稀疏性。
  - 保持隐含节点数目不变，dropout率变化；保持激活的隐节点数目不变，隐节点数目变化。
- 数据量小的时候，dropout效果不好，数据量大了，dropout效果好
- 模型均值预测
  - 使用weight-scaling来做预测的均值化
  - 使用mente-carlo方法来做预测。即对每个样本根据dropout率先sample出来k个net，然后做预测，k越大，效果越好。
- Multiplicative Gaussian Noise
  使用高斯分布的dropout而不是伯努利模型dropout
- dropout的缺点就在于训练时间是没有dropout网络的2-3倍。

参考文献中第二篇论文中得观点，也很强有力。

稀疏性

When the data points belonging to a particular class are distributed along a linear manifold, or sub-space, of the input space, it is enough to learn a single set of features which can span the entire manifold. But when the data is distributed along a highly non-linear and discontinuous manifold, the best way to represent such a distribution is to learn features which can explicitly represent small local regions of the input space, effectively “tiling” the space to define non-linear decision boundaries.

假设有一堆数据，这些数据由M个不同的非连续性簇表示，给定K个数据。那么一个有效的特征表示是将输入的每个簇映射为特征以后，簇之间的重叠度最低。使用A来表示每个簇的特征表示中激活的维度集合。重叠度是指两个不同的簇的A_i和A_j之间的Jaccard相似度最小，那么：

因而有意思的假设来了，使用了dropout后，相当于得到更多的局部簇，同等的数据下，簇变多了，因而为了使区分性变大，就使得稀疏性变大。

个人观点：该假设不仅仅解释了dropout何以导致稀疏性，还解释了dropout因为使局部簇的更加显露出来，而根据知识点A可得，使局部簇显露出来是dropout能防止过拟合的原因，而稀疏性只是其外在表现。

将dropout映射回得样本训练一个完整的网络，可以达到dropout的效果。

dropout由固定值变为一个区间，可以提高效果
将dropout后的表示映射回输入空间时，并不能找到一个样本x^*使得所有层都能满足dropout的结果，但可以为每一层都找到一个样本，这样，对于每一个dropout，都可以找到一组样本可以模拟结果。
dropout对应的还有一个dropConnect，公式如下：
- dropout
- dropConnect
试验中，纯二值化的特征的效果也非常好，说明了稀疏表示在进行空间分区的假设是成立的，一个特征是否被激活表示该样本是否在一个子空间中。