He初始化由何凯明(Kaiming He)等人提出,专为ReLU及其变体(如Leaky ReLU、PReLU)设计,解决了Xavier初始化在非线性激活函数中方差衰减的问题。其核心是通过修正ReLU的负半轴抑制特性,保持前向和反向传播的方差稳定。
1. 核心假设
-
非线性激活假设:激活函数为ReLU(负半轴置零,正半轴线性),破坏了Xavier的对称性假设。
-
独立同分布:权重和输入数据独立且均值为0。
-
单边方差修正:需补偿ReLU导致的方差减半效应。
2. 前向传播的方差分析
设全连接层的输入为 ,权重矩阵 ,输出为 ,激活后为 。
-
ReLU的方差影响:
ReLU将负值置零,使得激活后的输出 的方差为原值的一半:
-
保持方差稳定:
为使 ,需满足:
解得:
3. 反向传播的方差分析
反向传播时,梯度通过激活函数的正半轴反向传播。由于ReLU的导数为0或1,梯度方差同样需修正:
-
梯度方差修正:
反向传播的梯度方差为:
为使梯度方差稳定,仍需满足:
-
折中策略:
He初始化选择仅优化前向传播(因反向传播实际效果较弱),直接取:
4. 初始化公式
-
正态分布:
权重从 采样。 -
均匀分布:
权重在 内均匀采样。
5. 针对卷积层的扩展
对于卷积层,输入维度 定义为:
直接代入公式 。
6. 变体:Leaky ReLU/PReLU修正
若激活函数为Leaky ReLU(负半轴斜率为 )或PReLU,方差修正因子调整为:
其中 为负半轴斜率(如Leaky ReLU通常取 )。
7. 与Xavier初始化的对比
| 特性 | He初始化 | Xavier初始化 |
|---|---|---|
| 适用激活函数 | ReLU、Leaky ReLU等非线性激活函数 | Sigmoid、Tanh等近似线性激活函数 |
| 方差约束 | ||
| 反向传播分析 | 仅优化前向传播,忽略反向传播约束 | 同时考虑前向和反向传播 |
| 激活函数方差修正 | 补偿ReLU的方差减半效应 | 无修正(假设线性对称) |
8. 总结
-
优点:
- 显著提升ReLU网络的训练稳定性,适用于深层网络(如ResNet、VGG)。
- 修正了ReLU导致的方差衰减问题。
-
局限性:
- 对Sigmoid/Tanh等对称激活函数效果不如Xavier。
- 未显式考虑反向传播约束(但实践中表现良好)。