双向RNN

原理细节

结构：双向RNN包含两个独立的RNN层：
- 前向RNN：按时间顺序处理序列（ $t = 1 \to T$ ），计算隐藏状态： $h_{t}^{(f)} = f (W^{(f)} x_{t} + U^{(f)} h_{t - 1}^{(f)} + b^{(f)})$
- 后向RNN：按逆序处理序列（ $t = T \to 1$ ），计算隐藏状态 $h_{t}^{(b)} = f (W^{(b)} x_{t} + U^{(b)} h_{t + 1}^{(b)} + b^{(b)})$
- 合并输出： $H_{t} = [h_{t}^{(f)}; h_{t}^{(b)}]$ （常用拼接操作，也可选择相加或平均）。
时间步依赖：每个时间步 $t$ 的输出依赖全部输入序列的上下文信息。

梯度分解：总梯度=前向RNN梯度 + 后向RNN梯度。
反向传播过程：
1. 前向RNN使用BPTT从 $t = T$ 到 $t = 1$ 计算梯度 $\frac{\partial L}{\partial W ^{(f)}}$
2. 后向RNN使用BPTT从 $t = 1$ 到 $t = T$ 计算梯度 $\frac{\partial L}{\partial W ^{(b)}}$
3. 参数更新： $Δ W = Δ W^{(f)} + Δ W^{(b)}$
梯度消失/爆炸：与标准RNN面临相同问题，常通过LSTM/GRU单元缓解。