Seq2Seq

模型概述

Seq2Seq（Sequence-to-Sequence）是一种用于处理变长序列映射的深度学习框架，主要解决如机器翻译、文本摘要等任务。其核心思想是将输入序列编码为上下文向量，再解码生成目标序列。

数学表达： $P (y_{1}, y_{2}, ..., y_{T} ∣ x_{1}, x_{2}, ..., x_{S}) = \prod_{t = 1}^{T} P (y_{t} ∣ y_{< t}, c)$ 其中 $c$ 为编码器输出的上下文向量。

核心结构

编码器 (Encoder)

作用：将输入序列 $x = (x_{1}, x_{2}, ..., x_{S})$ 编码为固定维度的上下文向量 $c$ 。
常用结构：RNN/LSTM/GRU
最终状态： $c = h_{S}$ （最后时刻的隐藏状态）

解码器 (Decoder)

作用：基于 $c$ 生成输出序列 $y = (y_{1}, y_{2}, ..., y_{T})$
生成方式： $y_{t} = argmax (P (y_{t} ∣ y_{< t}, c))$
初始状态： $s_{0} = c$

注意力机制

传统 Seq2Seq 的长序列瓶颈：上下文向量 $c$ 难以保留全部信息。

注意力机制（Attention）改进： $α_{t i} = \frac{e x p ( e _{t i} )}{\sum _{j = 1}^{S} e x p ( e _{t j} )} 其中 e_{t i} = f (s_{t - 1}, h_{i})$ $c_{t} = \sum_{i = 1}^{S} α_{t i} h_{i}$

动态上下文：解码时每个时刻 $t$ 生成不同的 $c_{t}$
类型：加性注意力（Bahdanau）、乘性注意力（Luong）。

训练与推理

训练目标

损失函数：交叉熵损失 $L = - \sum_{t = 1}^{T} lo g P (y_{t}^{*} ∣ y_{< t}^{*}, c)$ 其中 $y_{t}^{*}$ 为真实标签。

推理方法

贪心搜索：每一步选择概率最高的词。
束搜索 (Beam Search)：保留 Top-K 候选序列。

变体与改进

双向编码器：捕获前后文信息。
Transformer：基于自注意力，替代RNN结构。
拷贝机制：允许复制输入序列中的词。
Beam Search优化：长度归一化、重复惩罚。

注意事项

长序列问题：输入过长时仍需结合截断/分块策略。
推理效率：束搜索的宽度 $k$ 需权衡质量与速度。

Quartz 4

Explorer