背景
-
RNN的局限性:传统循环神经网络(RNN)在处理长序列时存在梯度消失/爆炸问题,难以建模长距离依赖关系(通常超过10个时间步后性能显著下降)。
-
LSTM的提出:Hochreiter & Schmidhuber于1997年提出,通过门控机制和细胞状态的协同设计,使网络能够自主决定记忆/遗忘信息的比例。
-
发展定位:成为时序建模的里程碑式结构,后续衍生出GRU、BiLSTM等变体,支撑了2010年代深度学习在NLP、语音等领域的突破。
原理细节
-
核心结构:LSTM通过引入**细胞状态(Cell State)**和三个门控机制(遗忘门、输入门、输出门)解决传统RNN的梯度消失问题。
-
门控机制:
- 遗忘门:决定保留多少旧信息
- 输入门:决定存储多少新信息
- 细胞状态更新:
- 输出门:决定当前输出
- 遗忘门:决定保留多少旧信息
梯度计算与反向传播
-
反向传播通过时间(BPTT):沿时间步展开计算图,梯度通过链式法则传递。
-
梯度流特性:
- 细胞状态的梯度,避免传统RNN中连乘导致的梯度消失。
- 门控单元的导数包含,梯度衰减速度较慢。
-
梯度裁剪:可能仍需处理梯度爆炸问题。
应用场景
- 时间序列预测:股票价格、天气预测
- 自然语言处理:机器翻译、文本生成
- 语音识别:时序音频信号建模
- 异常检测:网络流量/传感器数据模式识别
优点
-
显式建模长时依赖关系(>1000时间步)
-
门控机制提供灵活的信息流控制
-
相比普通RNN,梯度消失问题显著缓解
缺点
-
计算复杂度高(参数数量是普通RNN的4倍)
-
仍可能发生短时记忆问题(极端长序列场景)
-
训练时间较长,需大量数据防止过拟合
-
超参数(如隐藏层大小)敏感