基础Seq2Seq架构

  • 编码器:将输入序列 编码为上下文向量 通常取最后一个隐藏状态

  • 解码器:基于 生成输出序列

注意力机制动机

  • 传统模型缺陷

    1. 上下文向量成为信息瓶颈
    2. 长序列信息丢失严重
    3. 缺乏对输入序列的动态关注
  • 核心思想:解码时动态关注输入序列的不同部分

注意力机制原理

计算注意力权重

对于解码器时刻

其中:

  • 是注意力评分函数
  • 常用评分方式:
    • 加性注意力:
    • 乘性注意力:

生成上下文向量

解码器改进

注意力机制优势

  1. 解决信息瓶颈问题
  2. 支持显式的对齐学习
  3. 提升长序列处理能力
  4. 提供可解释的注意力分布

常见变体

类型公式特点
加性注意力计算稳定
乘性注意力计算高效
缩放点积Transformer使用