Xavier初始化

Xavier初始化由Xavier Glorot和Yoshua Bengio提出，旨在解决深度神经网络中前向和反向传播的梯度消失/爆炸问题。其核心思想是通过调整权重初始化的方差，使各层激活值和梯度的方差在传播过程中保持稳定，适用于Sigmoid、Tanh等近似线性的激活函数。

1. 核心假设

线性激活假设：激活函数在原点附近近似线性（如Sigmoid在0点附近、Tanh在0点附近）, $f^{'} (0) = 1$ 。
独立同分布：权重和输入数据独立且均值为0。

因为 $X$ 和 $Y$ 独立且均值为 $0$ ，因此 $E (X) = E (Y) = 0$ ，因此：

&= E(X^2)E(Y^2) - E(X)^2E(Y)^2 \ &= E(X^2)E(Y^2) \end{aligned}$$

&= E(X^2)E(Y^2)-E(X)^2E(Y^2)-E(X^2)E(Y)^2+E(X)^2E(Y)^2 \ &= E(X^2)E(Y^2) \end{aligned}$$

所以 $Va r (X Y) = Va r (X) Va r (Y)$ 。

对称性假设：激活前的输入分布对称（如高斯分布）。

2. 前向传播的方差分析

设全连接层的输入为 $x \in R^{n_{in}}$ ，权重矩阵 $W \in R^{n_{out} \times n_{in}}$ ，输出为 $y = Wx$ ，激活后为 $a = f (y)$ 。

线性变换的方差：

若权重 $W_{ij}$ 的方差为 $Var (W)$ ，则输出的方差为：

Var (y_{i}) = n_{in} \cdot Var (W) \cdot Var (x_{j}) .

输出的分布比输入的分布缩放了 $n_{in} \cdot Va r (W)$ ，我们希望输入和输出的分布差不多。

保持方差稳定：

为使 $Var (y_{i}) = Var (x_{j})$ ，需满足：

n_{in} \cdot Var (W) = 1 \Rightarrow Var (W) = \frac{1}{n _{in}} .

3. 反向传播的方差分析

设损失函数对激活值的梯度为 $\frac{\partial L}{\partial a}$ ，反向传播的梯度为：

\frac{\partial L}{\partial x} = W^{T} \cdot \frac{\partial L}{\partial y} .

反向传播的方差：

若梯度 $\frac{\partial L}{\partial y _{i}}$ 的方差为 $Var (\frac{\partial L}{\partial y _{i}})$ ，则输入的梯度方差为：

Var (\frac{\partial L}{\partial x _{j}}) = n_{out} \cdot Var (W) \cdot Var (\frac{\partial L}{\partial y _{i}}) .

保持梯度方差稳定：

为使 $Var (\frac{\partial L}{\partial x _{j}}) = Var (\frac{\partial L}{\partial y _{i}})$ ，需满足：

n_{out} \cdot Var (W) = 1 \Rightarrow Var (W) = \frac{1}{n _{out}} .

4. 方差约束的调和平均

前向传播要求 $Var (W) = \frac{1}{n _{in}}$ ，反向传播要求 $Var (W) = \frac{1}{n _{out}}$ 。Xavier采用两者的调和平均：

Var (W) = \frac{2}{n _{in} + n _{out}} .

5. 初始化公式

正态分布：
权重从 $N (0, \frac{2}{n _{in} + n _{out}})$ 采样。
均匀分布：
权重在 $[- \frac{6}{n _{in} + n _{out}}, + \frac{6}{n _{in} + n _{out}}]$ 内均匀采样。

6. 针对卷积层的扩展

对于卷积层，输入维度 $n_{in}$ 和输出维度 $n_{out}$ 定义为：

{n_{in} = kernel_width \times kernel_height \times in_channels, n_{out} = kernel_width \times kernel_height \times out_channels .

直接代入公式 $Var (W) = \frac{2}{n _{in} + n _{out}}$ 。

7. 与He初始化的对比

特性	Xavier初始化	He初始化
适用激活函数	Sigmoid、Tanh（近似线性）	ReLU、Leaky ReLU（非线性）
方差约束	$\frac{2}{n _{in} + n _{out}}$	$\frac{2}{n _{in}}$
反向传播分析	同时考虑前向和反向传播	主要针对前向传播优化
激活函数方差修正	无（假设近似线性）	修正ReLU的方差衰减

8. 总结

优点：
- 显著缓解了梯度消失/爆炸问题，适用于浅层网络和Sigmoid/Tanh激活函数。
局限性：
- 对ReLU等非线性激活函数效果较差（需使用He初始化）。
- 深层网络中调和平均可能不够鲁棒。

Quartz 4

Explorer

Xavier初始化

1. 核心假设

2. 前向传播的方差分析

3. 反向传播的方差分析

4. 方差约束的调和平均

5. 初始化公式

6. 针对卷积层的扩展

7. 与He初始化的对比

8. 总结

Graph View

Table of Contents

Quartz 4

Explorer

Xavier初始化

​1. 核心假设

​2. 前向传播的方差分析

​3. 反向传播的方差分析

​4. 方差约束的调和平均

​5. 初始化公式

​6. 针对卷积层的扩展

​7. 与He初始化的对比

​8. 总结

Graph View

Table of Contents

1. 核心假设

2. 前向传播的方差分析

3. 反向传播的方差分析

4. 方差约束的调和平均

5. 初始化公式

6. 针对卷积层的扩展

7. 与He初始化的对比

8. 总结