He初始化

He初始化由何凯明（Kaiming He）等人提出，专为ReLU及其变体（如Leaky ReLU、PReLU）设计，解决了Xavier初始化在非线性激活函数中方差衰减的问题。其核心是通过修正ReLU的负半轴抑制特性，保持前向和反向传播的方差稳定。

1. 核心假设

非线性激活假设：激活函数为ReLU（负半轴置零，正半轴线性），破坏了Xavier的对称性假设。
独立同分布：权重和输入数据独立且均值为0。
单边方差修正：需补偿ReLU导致的方差减半效应。

2. 前向传播的方差分析

设全连接层的输入为 $x \in R^{n_{in}}$ ，权重矩阵 $W \in R^{n_{out} \times n_{in}}$ ，输出为 $y = Wx$ ，激活后为 $a = ReLU (y)$ 。

ReLU的方差影响：

ReLU将负值置零，使得激活后的输出 $a_{i} = max (0, y_{i})$ 的方差为原值的一半：

Var (a_{i}) = \frac{1}{2} \cdot Var (y_{i}) .

保持方差稳定：

为使 $Var (a_{i}) = Var (x_{j})$ ，需满足：

\frac{1}{2} \cdot n_{in} \cdot Var (W) \cdot Var (x_{j}) = Var (x_{j}) .

解得：

Var (W) = \frac{2}{n _{in}} .

3. 反向传播的方差分析

反向传播时，梯度通过激活函数的正半轴反向传播。由于ReLU的导数为0或1，梯度方差同样需修正：

梯度方差修正：

反向传播的梯度方差为：

Var (\frac{\partial L}{\partial x _{j}}) = \frac{1}{2} \cdot n_{out} \cdot Var (W) \cdot Var (\frac{\partial L}{\partial y _{i}}) .

为使梯度方差稳定，仍需满足：

Var (W) = \frac{2}{n _{out}} .

折中策略：

He初始化选择仅优化前向传播（因反向传播实际效果较弱），直接取：

Var (W) = \frac{2}{n _{in}} .

4. 初始化公式

正态分布：
权重从 $N (0, \frac{2}{n _{in}})$ 采样。
均匀分布：
权重在 $[- \frac{6}{n _{in}}, + \frac{6}{n _{in}}]$ 内均匀采样。

5. 针对卷积层的扩展

对于卷积层，输入维度 $n_{in}$ 定义为：

n_{in} = kernel_width \times kernel_height \times in_channels .

直接代入公式 $Var (W) = \frac{2}{n _{in}}$ 。

6. 变体：Leaky ReLU/PReLU修正

若激活函数为Leaky ReLU（负半轴斜率为 $α$ ）或PReLU，方差修正因子调整为：

Var (W) = \frac{2}{( 1 + α ^{2} ) \cdot n _{in}} .

其中 $α$ 为负半轴斜率（如Leaky ReLU通常取 $α = 0.01$ ）。

7. 与Xavier初始化的对比

特性	He初始化	Xavier初始化
适用激活函数	ReLU、Leaky ReLU等非线性激活函数	Sigmoid、Tanh等近似线性激活函数
方差约束	$\frac{2}{n _{in}}$	$\frac{2}{n _{in} + n _{out}}$
反向传播分析	仅优化前向传播，忽略反向传播约束	同时考虑前向和反向传播
激活函数方差修正	补偿ReLU的方差减半效应	无修正（假设线性对称）

8. 总结

优点：
- 显著提升ReLU网络的训练稳定性，适用于深层网络（如ResNet、VGG）。
- 修正了ReLU导致的方差衰减问题。
局限性：
- 对Sigmoid/Tanh等对称激活函数效果不如Xavier。
- 未显式考虑反向传播约束（但实践中表现良好）。

Quartz 4

Explorer

He初始化

1. 核心假设

2. 前向传播的方差分析

3. 反向传播的方差分析

4. 初始化公式

5. 针对卷积层的扩展

6. 变体：Leaky ReLU/PReLU修正

7. 与Xavier初始化的对比

8. 总结

Graph View

Table of Contents

Quartz 4

Explorer

He初始化

​1. 核心假设

​2. 前向传播的方差分析

​3. 反向传播的方差分析

​4. 初始化公式

​5. 针对卷积层的扩展

​6. 变体：Leaky ReLU/PReLU修正

​7. 与Xavier初始化的对比

​8. 总结

Graph View

Table of Contents

1. 核心假设

2. 前向传播的方差分析

3. 反向传播的方差分析

4. 初始化公式

5. 针对卷积层的扩展

6. 变体：Leaky ReLU/PReLU修正

7. 与Xavier初始化的对比

8. 总结