Quartz 4

❯

深度学习基础

❯

自然语言处理

❯

动态词嵌入

❯

ELMo

Mar 19, 20253 min read

网络结构概述

ELMo 是一种基于双向LSTM的深度上下文词表示模型，核心结构包含字符编码层和多层双向语言模型。其网络结构分为三部分：

ELMo_{k} = γ j = 0 \sum L s_{j} \cdot h_{k, j}

$L$ : 双向LSTM层数
$s_{j}$ : 可训练的任务特定权重
$γ$ : 全局缩放系数

1. 字符编码层（Character Encoding）

输入：原始字符序列（如单词拆分为字符）
结构：
- 字符卷积层
  - 卷积核： $2048$ 个过滤器，尺寸为 $1 \times 7$ （1D卷积）
  - 步长(stride)=1，无填充
- Highway层
  - 2层Highway网络，增强梯度流动
- 线性投影
  - 将输出投影到 $d = 512$ 维空间
输出：单词的字符级表示 $x_{k} \in R^{512}$ 。

2. 双向语言模型（Bidirectional Language Model）

前向LSTM

输入：字符编码 $x_{1}, x_{2}, ..., x_{n}$
隐藏层： $L$ 层LSTM（通常 $L = 2$ ）
- 每层隐藏单元数： $4096$
- 投影输出到 $512$ 维（减少参数）
目标函数：最大化前向对数似然
$\sum_{k = 1}^{n} lo g p (t_{k} ∣ t_{1}, ..., t_{k - 1})$

后向LSTM

输入：字符编码 $x_{n}, x_{n - 1}, ..., x_{1}$ （反向序列）
隐藏层：与前向结构对称
目标函数：最大化后向对数似然
$\sum_{k = 1}^{n} lo g p (t_{k} ∣ t_{k + 1}, ..., t_{n})$

双向联合训练

总损失函数：
$L = - \sum_{k = 1}^{n} (lo g p (t_{k} ∣ t_{1}, ..., t_{k - 1}) + lo g p (t_{k} ∣ t_{k + 1}, ..., t_{n}))$

3. 多层表示组合

ELMo 融合各层隐藏状态生成最终词表示：

层输出：
- $h_{k, 0}$ : 字符编码层输出
- $h_{k, 1}$ : 第一层双向LSTM输出
- $h_{k, 2}$ : 第二层双向LSTM输出
参数化组合：
$ELMo_{k} = γ (s_{0} \cdot h_{k, 0} + s_{1} \cdot h_{k, 1}^{f or w a r d} + s_{1} \cdot h_{k, 1}^{ba c k w a r d} + s_{2} \cdot h_{k, 2}^{f or w a r d} + s_{2} \cdot h_{k, 2}^{ba c k w a r d})$
- $s_{j}$ : Softmax归一化的任务特定权重
- $γ$ : 预训练后固定或微调

Graph View

网络结构概述
1. 字符编码层（Character Encoding）
2. 双向语言模型（Bidirectional Language Model）
前向LSTM
后向LSTM
双向联合训练
3. 多层表示组合

Created with Quartz v4.4.1 © 2025

GitHub
Discord Community