批归一化,不仅可以用在输入层能够加速梯度下降,而且可以用在隐藏层Z(i),另外可以改变其均值方差。

深度学习-batch norm_梯度下降

因为要归一化,所以不用b

深度学习-batch norm_梯度下降_02