RMSProp

引言

RMSProp（Root Mean Square Propagation）是对 AdaGrad 的改进，旨在解决 AdaGrad 在训练过程中学习率迅速下降的问题。

AdaGrad 会根据历史梯度的累积平方来调整学习率，导致在训练的后期，学习率变得过小，导致模型无法继续有效地学习。而 RMSProp 通过引入指数衰减平均来计算梯度平方的平均值，使得历史梯度的影响逐渐减小，避免了学习率过快下降的问题。

RMSProp 通过对梯度的平方进行加权平均，来调整每个参数的学习率。它的关键思想是使用梯度的平方的移动平均来规范化每个参数的梯度，使得具有较大梯度的参数获得较小的更新步长，而具有较小梯度的参数则获得较大的更新步长。

RMSProp 的更新规则如下：

对每个参数的梯度平方计算指数加权平均： $v_{t} = β v_{t - 1} + (1 - β) g_{t}^{2}$ 其中， $v_{t}$ 是当前时刻的平方梯度的加权平均， $β$ 是衰减率（通常接近 1，如 0.9）， $g_{t}$ 是当前时刻的梯度。
使用加权平均来规范化梯度，更新参数： $θ_{t} = θ_{t - 1} - \frac{α}{v _{t} + ϵ} g_{t}$ 其中， $α$ 是学习率， $ϵ$ 是为了防止除以零的微小常数（通常设置为 $1 0^{- 8}$ ）。