Quartz 4

❯

深度学习基础

❯

2 深度学习基础

❯

2.3 激活函数

❯

2.3.4-ReLU

Mar 19, 20252 min read

原理

ReLU（Rectified Linear Unit） 是一种广泛应用的激活函数，其数学表达式为： $f (x) = max (0, x)$ 这意味着对于输入x，如果x大于0，则输出x；如果x小于或等于0，则输出0。

导数

ReLU的导数为：

当 $x > 0$ 时， $f^{'} (x) = 1$
当 $x < 0$ 时， $f^{'} (x) = 0$
在 $x = 0$ 处，根据具体实现可能有所不同，但通常认为导数是0或者1

在反向传播过程中，只有当输入大于0时，梯度才会被传递回去，这有助于加速训练过程，因为相比sigmoid和tanh激活函数，它避免了梯度消失的问题。

优点和缺点

优点

计算效率高
- 由于其实现简单，只需比较操作，因此计算速度非常快。
缓解梯度消失问题
- 在正区间内保持梯度不变，有助于加速深层网络的训练。
稀疏激活性
- 可以产生真正的零值，有助于网络的稀疏表示。

缺点

死亡ReLU问题
- 如果输入持续为负，ReLU单元将停止学习，因为它们的梯度总是0，导致神经元“死亡”。
非零中心化
- ReLU的输出不是以零为中心的，这可能会影响训练效果。

Graph View

原理
导数
优点和缺点
优点
缺点

Created with Quartz v4.4.1 © 2025

GitHub
Discord Community