Momentum

原理

动量梯度下降（Momentum Gradient Descent） 是一种优化算法，通过引入动量项来加速梯度下降过程。其核心思想是：

引入动量变量 $v_{t}$ ，表示历史梯度的指数加权平均： $v_{t} = β v_{t - 1} + (1 - β) \nabla_{θ} J (θ)$ 其中 $β$ 是动量系数（通常取 0.9）， $\nabla_{θ} J (θ)$ 是当前梯度。

使用动量项替代原始梯度进行更新： $θ = θ - η v_{t}$ 其中 $η$ 是学习率。

假设目标函数是 $x^{2} + 10 * y^{2}$ ，初始坐标 $(- 4, 4.5)$ ，学习率 $0.1$ ，动量系数 $0.6$ ，下表列出8个时间步的梯度更新结果：

时间步	SGD梯度 (x,y)	Momentum梯度 (v_x,v_y)
0	(-8.0000, 90.0000)	(-8.0000, 90.0000)
1	(-6.4000, -90.0000)	(-11.2000, -18.0000)
2	(-5.1200, 90.0000)	(-10.0800, 43.2000)
3	(-4.0960, -90.0000)	(-7.4368, -30.5280)
4	(-3.2768, 90.0000)	(-4.8748, 34.3872)
5	(-2.6214, -90.0000)	(-2.9999, -25.2557)
6	(-2.0972, 90.0000)	(-1.7000, 28.4034)
7	(-1.6777, -90.0000)	(-0.9200, -19.9620)
可以看出SGD以缓慢且震荡的方式向原点接近，而Momentum则快速且平滑。一开始Momentum的梯度较小是因为我们设定的初始动量为0。