带注意力机制的Seq2Seq

基础Seq2Seq架构

编码器：将输入序列 $X = (x_{1}, ..., x_{T})$ 编码为上下文向量 $c$ $h_{t} = f_{e n c} (x_{t}, h_{t - 1}), c = q (h_{1}, ..., h_{T})$ 通常取最后一个隐藏状态 $c = h_{T}$
解码器：基于 $c$ 生成输出序列 $Y = (y_{1}, ..., y_{T^{'}})$ $s_{i} = f_{d ec} (y_{i - 1}, s_{i - 1}, c)$ $P (y_{i} ∣ y_{< i}, X) = g (y_{i - 1}, s_{i}, c)$

对于解码器时刻 $i$ ： $e_{ij} = a (s_{i - 1}, h_{j})$ $α_{ij} = \frac{e x p ( e _{ij} )}{\sum _{k = 1}^{T} e x p ( e _{ik} )}$

其中：

$a$ 是注意力评分函数
常用评分方式：
- 加性注意力： $a (s, h) = v^{⊤} tanh (W_{1} s + W_{2} h)$
- 乘性注意力： $a (s, h) = s^{⊤} W h$

$c_{i} = \sum_{j = 1}^{T} α_{ij} h_{j}$

$s_{i} = f_{d ec} (y_{i - 1}, s_{i - 1}, c_{i})$ $P (y_{i} ∣ y_{< i}, X) = g (y_{i - 1}, s_{i}, c_{i})$