【深度学习：CNN】Dropout解析（1）

转载

荪荪 2021-07-12 09:57:44

　　常用的防治过拟合的方法是在模型的损失函数中，需要对模型的参数进行“惩罚”，这样的话这些参数就不会太大，而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。因此在添加权值惩罚项后，应用梯度下降算法迭代优化计算时，如果参数theta比较大，则此时的正则项数值也比较大，那么在下一次更新参数时，参数削减的也比较大。可以使拟合结果看起来更平滑，不至于过拟合。

训练阶段：

　　这样处理，不论权值更新量有多大，权值都不会过大。此外，还可以使算法使用一个比较大的学习率，来加快学习速度，从而使算法在一个更广阔的权值空间中搜索更好的权值，而不用担心权值过大。

　　这里我的解释是：假设比例v=0.5，即在训练阶段，以0.5的比例忽略隐层节点；那么假设隐层有80个节点，每个节点输出值为1，那么此时只有40个节点正常工作；也就是说总的输出为40个1和40个0；输出总和为40；而在测试阶段，由于我们的权值已经训练完成，此时就不在按照0.5的比例忽略隐层输出，假设此时每个隐层的输出还是1，那么此时总的输出为80个1，明显比dropout训练时输出大一倍（由于dropout比例为0.5）；所以为了得到和训练时一样的输出结果，就缩减隐层输出为a（1-v）；即此时输出80个0.5，总和也为40.这样就使得测试阶段和训练阶段的输出“一致”了。（个人见解）

　　Dropout中哪里体现了“不同模型”；这个奥秘就是我们随机选择忽略隐层节点，在每个批次的训练过程中，由于每次随机忽略的隐层节点都不同，这样就使每次训练的网络都是不一样的，每次训练都可以单做一个“新”的模型；此外，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

　　首先先介绍一个基于matlab deeplearning toolbox版本的dropout代码，主要参考（tornadomeet大牛博客），如果了解DenoisingAutoencoder的训练过程，则这个dropout的训练过程如出一辙；不需要怎么修改，就可以直接运行，因为在toolbox中已经修改完成了。

1.提取数据（只提取2000个训练样本）

　　按比例随机忽略隐层节点：

结果：

0.1576

0.4854

随机选择

0.8003

误差delta反向传播实现：

if(nn.dropoutFraction>0) d{i} = d{i} .* [ones(size(d{i},1),1) nn.dropOutMask{i}]; end

% delta_w(i)=delta(i+1)*a(i) for i = 1 : (n - 1) if i+1==n nn.dW{i} = (d{i + 1}' * nn.a{i}) / size(d{i + 1}, 1); else nn.dW{i} = (d{i + 1}(:,2:end)' * nn.a{i}) / size(d{i + 1}, 1); end end