Adagrad

原理

Adagrad的核心思想是为每个参数维护一个历史梯度平方和，并基于这个累积值来调整学习率。对于具有较大历史梯度平方和的参数，其学习率会减小；而对于那些历史梯度平方和较小的参数，则允许有较大的学习率。

给定时间步 $t$ 时的参数 $θ_{t}$ ，在 $t + 1$ 时刻的更新规则如下： $θ_{t + 1, i} = θ_{t, i} - \frac{η}{G _{t, ii} + ϵ} \cdot g_{t, i}$

$g_{t, i}$ 表示在第 $t$ 次迭代时对参数 $θ_{i}$ 计算得到的梯度。
$G_{t} \in R^{d \times d}$ 是一个对角矩阵，其每个对角元素 $i, i$ 是直到时间步 $t$ 为止所有先前梯度关于 $θ_{i}$ 的平方和。更新公式 $G_{t} = G_{t - 1} + (\nabla_{θ_{t}} L)^{2}$
$η$ 是初始学习率。
$ϵ$ 是为了数值稳定性而添加的小常数（通常设置为 $1 0^{- 8}$ ），以避免除零错误。