一、学习率的调节

•          选择在训练数据上的代价立即开始下降而非震荡或者增加时作为学习速率的阈值的估计,以量级(如1.0,0.1,0.01…)为估计寻找阈值。若开始就下降就提高学习速率;若开始就震荡或增加就降低学习速率。找到阈值后可取阈值的一般作为学习速率。

•          可变学习速率:在开始时使用较大的学习速率以期快速收敛,随着越来越接近谷底,换成较小的学习速率,避免在谷底大幅度震荡。一种自然的方法是使用提前终值的想法。保持学习速率为一个常量直到验证准确率开始变差。然后按照某个量下降学习速率,比如10或者2,重复若干次,直到学习速率是初始值的1/1024(或者1/1000)时终止。

二、规范化参数的调节

•          开始时将规范化参数设置为0,确定学习率后,使用验证集选择好的规范化参数,从规范化参数为1开始,根据验证集上的性能按照因子10增加或者减少,确定量级后再改进规范化参数。再重新返回优化学习率。

确定学习率——寻找规范化参数量级——改进规范化参数——优化学习率

三、小批量数据的调节

•          小批量数据大小的选择是一个相对独立的超参数,可以使用某些可以接受的值(不需要是最优的)作为其他参数的选择,然后进行不同小批量数据大小的尝试。

四、迭代期数量的调节

•          为避免过度训练造成的过拟合,会采用提前停止的方式终值迭代:即如果性能在一段时间内不再提升就中止。在初始阶段采取较小回合不提升规则,为获得相当好的性能或检验是否存在一个平缓局面,尝试增加回合数目。这就引入了一种新的需要优化的超参数,这个超参数取决于问题本身,可通过一些小的实验发现好的策略