pytorch中使用LayerNorm的两种方式,一个是nn.LayerNorm,另外一个是nn.functional.layer_norm
1. 计算方式
根据官方网站上的介绍,LayerNorm计算公式如下。
公式其实也同BatchNorm,只是计算的维度不同。
下面通过实例来走一遍公式
假设有如下的数据
先计算mean和variant
均值:
方差
再执行 (x-mean)/sqrt(var)
2. 实现代码
下面代码是分别使用这两种方式以及一种自己实现的方式
结果如下,
多维实现
如果张量x是3维,应该如何使用?
代码样例如下,
结果如下,
多维张量的情况下,需要注意这里的normalized_shape只能是张量的后面几个连续维度,否则会报如下类似错误
RuntimeError: Given normalized_shape=[2, 3], expected input with shape [*, 2, 3], but got input of size[2, 1, 3]
3. 思考
从这里可以看出,这里实际上是最尾部维度做Normalization。
考虑到训练nlp模型的场景,张量维度一般是 (Batch size,Length of Sequence, Embedding size),使用LayerNorm实际上就是在一个mini batch的范围内,以Embedding为维度做正则。
那么为什么在nlp的任务上一般使用LayerNorm呢?
在nlp 任务中,每次batch中的sequnce可能不同,所以包含了batch和sequnce的维度的话,可能也把paddding的数据包含进来了。