He初始化由何凯明(Kaiming He)等人提出,专为ReLU及其变体(如Leaky ReLU、PReLU)​设计,解决了Xavier初始化在非线性激活函数中方差衰减的问题。其核心是通过修正ReLU的负半轴抑制特性,保持前向和反向传播的方差稳定。

1. 核心假设

  • 非线性激活假设:激活函数为ReLU(负半轴置零,正半轴线性),破坏了Xavier的对称性假设。

  • 独立同分布:权重和输入数据独立且均值为0。

  • 单边方差修正:需补偿ReLU导致的方差减半效应。

2. 前向传播的方差分析

设全连接层的输入为 ,权重矩阵 ,输出为 ,激活后为

  • ReLU的方差影响

    ReLU将负值置零,使得激活后的输出 的方差为原值的一半:

  • 保持方差稳定

    为使 ,需满足:

解得:

3. 反向传播的方差分析

反向传播时,梯度通过激活函数的正半轴反向传播。由于ReLU的导数为0或1,梯度方差同样需修正:

  • 梯度方差修正

    反向传播的梯度方差为:

为使梯度方差稳定,仍需满足:

  • 折中策略

    He初始化选择仅优化前向传播​(因反向传播实际效果较弱),直接取:

4. 初始化公式

  • 正态分布
    权重从 采样。

  • 均匀分布
    权重在 内均匀采样。

5. 针对卷积层的扩展

对于卷积层,输入维度 定义为:

直接代入公式

6. 变体:Leaky ReLU/PReLU修正

若激活函数为Leaky ReLU(负半轴斜率为 )或PReLU,方差修正因子调整为:

其中 为负半轴斜率(如Leaky ReLU通常取 )。

7. 与Xavier初始化的对比

特性He初始化Xavier初始化
适用激活函数ReLU、Leaky ReLU等非线性激活函数Sigmoid、Tanh等近似线性激活函数
方差约束
反向传播分析仅优化前向传播,忽略反向传播约束同时考虑前向和反向传播
激活函数方差修正补偿ReLU的方差减半效应无修正(假设线性对称)

8. 总结

  • 优点

    • 显著提升ReLU网络的训练稳定性,适用于深层网络(如ResNet、VGG)。
    • 修正了ReLU导致的方差衰减问题。
  • 局限性

    • 对Sigmoid/Tanh等对称激活函数效果不如Xavier。
    • 未显式考虑反向传播约束(但实践中表现良好)。