- batch size 较小
use_global_stats: false是使用了每个Batch里的数据的均值和方差;
use_global_stats: true是使用了所有数据的均值和方差。
- caffe 下与loss相关的一些说明:
参考:
1 关于训练神经网路的诸多技巧Trickshttps://oldpan.me/archives/how-to-use-tricks-to-train-network
2 深度学习炼丹师的养成之路之——Batch size/Epoch/Learning Rate的设置和学习策略
3 如何理解深度学习分布式训练中的large batch size与learning rate的关系?https://www.zhihu.com/question/64134994
4 Using Learning Rate Schedules for Deep Learning Models in Python with Kerashttps://machinelearningmastery.com/using-learning-rate-schedules-deep-learning-models-python-keras/
5 深度学习参数调优杂记+caffe训练时的问题
6 caffe固定网络权重参数------遇到BatchNorm层和Scale层的时候
7 综述:深度神经网络模型压缩和加速方法