LSTM

背景

RNN的局限性：传统循环神经网络（RNN）在处理长序列时存在梯度消失/爆炸问题，难以建模长距离依赖关系（通常超过10个时间步后性能显著下降）。
LSTM的提出：Hochreiter & Schmidhuber于1997年提出，通过门控机制和细胞状态的协同设计，使网络能够自主决定记忆/遗忘信息的比例。
发展定位：成为时序建模的里程碑式结构，后续衍生出GRU、BiLSTM等变体，支撑了2010年代深度学习在NLP、语音等领域的突破。

核心结构：LSTM通过引入**细胞状态（Cell State）**和三个门控机制（遗忘门、输入门、输出门）解决传统RNN的梯度消失问题。
门控机制：
- 遗忘门：决定保留多少旧信息
  $f_{t} = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f})$
- 输入门：决定存储多少新信息
  $i_{t} = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i})$
  $\tilde{C}_{t} = tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C})$
- 细胞状态更新：
  $C_{t} = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ \tilde{C}_{t}$
- 输出门：决定当前输出
  $o_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o})$
  $h_{t} = o_{t} ⊙ tanh (C_{t})$

反向传播通过时间（BPTT）：沿时间步展开计算图，梯度通过链式法则传递。
梯度流特性：
- 细胞状态的梯度 $\frac{\partial C _{t}}{\partial C _{t - 1}} = f_{t}$ ，避免传统RNN中连乘导致的梯度消失。
- 门控单元的导数包含 $σ^{'} (x) = σ (x) (1 - σ (x))$ ，梯度衰减速度较慢。
梯度裁剪：可能仍需处理梯度爆炸问题。