Layer Normalization

背景介绍

在深度神经网络训练中，内部协变量偏移（Internal Covariate Shift）会导致梯度消失或爆炸，从而降低训练效率。Batch Normalization（BN）通过标准化每一层的输入来缓解这一问题，但其依赖于小批量数据统计量，在以下场景中表现受限：

Layer Normalization（LN）由[Ba et al., 2016]提出，通过对单个样本的层内神经元输出进行标准化，摆脱对批大小的依赖，特别适合序列模型和动态网络。

LN和BN在理论上没有什么差别，主要是实现上的不同。LN用于解决BN无法使用在RNN/Transformer中。

给定输入向量 $x \in R^{H}$ （H为层中神经元数量），LN按如下步骤处理：

计算均值与方差
$μ = \frac{1}{H} \sum_{i = 1}^{H} x_{i}$ $σ^{2} = \frac{1}{H} \sum_{i = 1}^{H} (x_{i} - μ)^{2} + ϵ$ （ $ϵ$ 为数值稳定项，通常取 $1 e - 5$ ）
归一化
$\overset{x}{^}_{i} = \frac{x _{i} - μ}{σ ^{2}}$
仿射变换
$y_{i} = γ \overset{x}{^}_{i} + β$
（ $γ$ 和 $β$ 为可学习的缩放与平移参数）

对输入 $x_{i}$ 的梯度
$\frac{\partial L}{\partial x _{i}} = \frac{\partial L}{\partial y _{i}} \cdot \frac{γ}{σ ^{2}} + \frac{\partial L}{\partial μ} \cdot \frac{1}{H} + \frac{\partial L}{\partial σ ^{2}} \cdot \frac{2 ( x _{i} - μ )}{H}$
对参数 $γ$ 和 $β$ 的梯度
$\frac{\partial L}{\partial γ} = \sum_{i = 1}^{H} \frac{\partial L}{\partial y _{i}} \overset{x}{^}_{i}$ $\frac{\partial L}{\partial β} = \sum_{i = 1}^{H} \frac{\partial L}{\partial y _{i}}$