dropout是CNN中防止过拟合提高效果的一个大杀器,但对于其为何有效,却众说纷纭。在下读到两篇代表性的论文,代表两种不同的观点,特此分享给大家。 观点

费时

  • 容易过拟合

 

【深度学习:CNN】Dropout解析(2)_RCNN

虽然直观上看dropout是ensemble在分类性能上的一个近似,然而实际中,dropout毕竟还是在一个神经网络上进行的,只训练出了一套模型参数。那么他到底是因何而有效呢?这就要从动机上进行分析了。论文中作者对dropout的动机做了一个十分精彩的类比:

比如要搞一次恐怖袭击,两种方式: 
- 集中50人,让这50个人密切精准分工,搞一次大爆破。 
- 将50人分成10组,每组5人,分头行事,去随便什么地方搞点动作,成功一次就算。

dropout也能达到同样的效果,它强迫一个神经单元,和随机挑选出来的其他神经单元共同工作,达到好的效果。消除减弱了神经元节点间的联合适应性,增强了泛化能力。

而为了达到ensemble的特性,有了dropout后,神经网络的训练和预测就会发生一些变化。

  • 防止过拟合的方法:

    • 提前终止(当验证集上的效果变差的时候)
    • L1和L2正则化加权
    • soft weight sharing
    • dropout
  • dropout率的选择

    • 经过交叉验证,隐含节点dropout率等于0.5的时候效果最好,原因是0.5的时候dropout随机生成的网络结构最多。
    • dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数。使得输入变化不会太大(0.8)
  • 训练过程

    • 对参数w的训练进行球形限制(max-normalization),对dropout的训练非常有用。
    • 球形半径c是一个需要调整的参数。可以使用验证集进行参数调优
    • dropout自己虽然也很牛,但是dropout、max-normalization、large decaying learning rates and high momentum组合起来效果更好,比如max-norm regularization就可以防止大的learning rate导致的参数blow up。
    • 使用pretraining方法也可以帮助dropout训练参数,在使用dropout时,要将所有参数都乘以1/p。
  • 部分实验结论

    该论文的实验部分很丰富,有大量的评测数据。

    • maxout 神经网络中得另一种方法,Cifar-10上超越dropout

    • 文本分类上,dropout效果提升有限,分析原因可能是Reuters-RCV1数据量足够大,过拟合并不是模型的主要问题

    • dropout与其他standerd regularizers的对比 
      • L2 weight decay
      • lasso
      • KL-sparsity
      • max-norm regularization
      • dropout
    • 特征学习 
      • 标准神经网络,节点之间的相关性使得他们可以合作去fix其他节点中得噪声,但这些合作并不能在unseen data上泛化,于是,过拟合,dropout破坏了这种相关性。在autoencoder上,有dropout的算法更能学习有意义的特征(不过只能从直观上,不能量化)。
      • 产生的向量具有稀疏性。
      • 保持隐含节点数目不变,dropout率变化;保持激活的隐节点数目不变,隐节点数目变化。
    • 数据量小的时候,dropout效果不好,数据量大了,dropout效果好
    • 模型均值预测

      • 使用weight-scaling来做预测的均值化
      • 使用mente-carlo方法来做预测。即对每个样本根据dropout率先sample出来k个net,然后做预测,k越大,效果越好。
    • Multiplicative Gaussian Noise 
      使用高斯分布的dropout而不是伯努利模型dropout

    • dropout的缺点就在于训练时间是没有dropout网络的2-3倍。
参考文献中第二篇论文中得观点,也很强有力。

稀疏性

When the data points belonging to a particular class are distributed along a linear manifold, or sub-space, of the input space, it is enough to learn a single set of features which can span the entire manifold. But when the data is distributed along a highly non-linear and discontinuous manifold, the best way to represent such a distribution is to learn features which can explicitly represent small local regions of the input space, effectively “tiling” the space to define non-linear decision boundaries.

假设有一堆数据,这些数据由M个不同的非连续性簇表示,给定K个数据。那么一个有效的特征表示是将输入的每个簇映射为特征以后,簇之间的重叠度最低。使用A来表示每个簇的特征表示中激活的维度集合。重叠度是指两个不同的簇的Ai和Aj之间的Jaccard相似度最小,那么:

因而有意思的假设来了,使用了dropout后,相当于得到更多的局部簇,同等的数据下,簇变多了,因而为了使区分性变大,就使得稀疏性变大。

 

个人观点:该假设不仅仅解释了dropout何以导致稀疏性,还解释了dropout因为使局部簇的更加显露出来,而根据知识点A可得,使局部簇显露出来是dropout能防止过拟合的原因,而稀疏性只是其外在表现。

将dropout映射回得样本训练一个完整的网络,可以达到dropout的效果。

  • dropout由固定值变为一个区间,可以提高效果
  • 将dropout后的表示映射回输入空间时,并不能找到一个样本x*使得所有层都能满足dropout的结果,但可以为每一层都找到一个样本,这样,对于每一个dropout,都可以找到一组样本可以模拟结果。
  • dropout对应的还有一个dropConnect,公式如下:

    • dropout

      【深度学习:CNN】Dropout解析(2)_深度学习_02

    • dropConnect

      【深度学习:CNN】Dropout解析(2)_深度学习_03

  • 试验中,纯二值化的特征的效果也非常好,说明了稀疏表示在进行空间分区的假设是成立的,一个特征是否被激活表示该样本是否在一个子空间中。

[2]. Dropout as data augmentation. http://arxiv.org/abs/1506.08700