Word2Vec

核心思想

Word2Vec是一种通过无监督学习获取词汇向量表示的算法，核心假设是分布相似性：语义相似的词会出现在相似的上下文中。其目标是将单词映射到低维稠密向量空间，使得： $s imi l a r i t y (w_{i}, w_{j}) \approx v_{w_{i}} \cdot v_{w_{j}}$

模型架构

CBOW (Continuous Bag-of-Words)

通过上下文预测中心词

目标函数：最大化对数似然 $L = \sum_{t = 1}^{T} lo g p (w_{t} ∣ w_{t - k}, ..., w_{t + k})$

上下文词向量与中心词向量

在 CBOW 模型中，每个词对应两种向量表示：

上下文词向量（Context Word Vector）：当词作为上下文词时，其对应的向量。记为 $v_{w}$ ，其中 $w$ 表示词的索引。上下文词向量也是CBOW模型中词的嵌入向量。
中心词向量（Center Word Vector）：当词作为中心词（目标词）时，其对应的向量。记为 $u_{c}$ ，其中 $c$ 表示中心词的索引。中心词向量不用做词嵌入，只是用于辅助概率计算。

输入矩阵与输出矩阵

CBOW 模型通过两个矩阵定义词向量：

输入矩阵（Input Matrix）：记为 $W \in R^{V \times d}$ ，其中 $V$ 是词汇表大小， $d$ 是向量维度。矩阵的每一行对应一个词的上下文词向量。例如，词 $w$ 的上下文词向量为 $v_{w} = W [w, :] \in R^{d}$ 。
输出矩阵（Output Matrix）：记为 $W^{'} \in R^{d \times V}$ ，矩阵的每一列对应一个词的中心词向量。例如，词 $c$ 的中心词向量为 $u_{c} = W^{'} [:, c] \in R^{d}$ 。

计算过程

给定一个上下文窗口大小为 $C$ 的词序列，CBOW 的目标是通过上下文词预测中心词。具体步骤如下：

获取上下文词向量
对窗口内的所有上下文词 ${w_{t - C}, ..., w_{t - 1}, w_{t + 1}, ..., w_{t + C}}$ ，从输入矩阵 $W$ 中提取向量 $v_{t + j}$ ，并计算均值：

\hat{v} = \frac{1}{2 C} - C \leq j \leq C, j \neq = 0 \sum v_{t + j}

计算中心词得分
对每个可能的中心词 $w_{c}$ ，计算其与上下文词均值向量的相似度得分：

score (w_{c} ∣ context) = \hat{v}^{T} u_{c} = k = 1 \sum d \overset{v}{^}_{k} \cdot u_{c, k}

Softmax 归一化
将得分转换为概率分布：

P (w_{c} ∣ context) = \frac{exp ( v ^ ^{T} u _{c} )}{\sum _{k = 1}^{V} exp ( v ^ ^{T} u _{k} )}

下图演示了词汇表大小为5，词嵌入维度为3时CBOW的计算流程：

在实际实现中，输出矩阵就是Softmax的权重矩阵。

损失函数

CBOW 使用负对数似然损失函数。对每个上下文窗口和对应的中心词 $w_{t}$ ，损失函数定义为：

L = - \frac{1}{T} t = 1 \sum T lo g P (w_{t} ∣ context)

其中：

$T$ 是训练文本的总词数。
外层求和表示对所有中心词求平均。

Skip-gram

简介

通过中心词预测上下文

更擅长处理低频词
目标函数： $L = \sum_{t = 1}^{T} \sum_{- k \leq j \leq k, j \neq = 0} lo g p (w_{t + j} ∣ w_{t})$

中心词向量与上下文词向量

在 SkipGram 模型中，每个词对应两种向量表示：

中心词向量（Center Word Vector）：当词作为中心词时，其对应的向量。记为 $v_{w}$ ，其中 $w$ 表示词的索引。中心词向量也是SkipGram模型中词的嵌入向量。
上下文词向量（Context Word Vector）：当词作为上下文词时，其对应的向量。记为 $u_{c}$ ，其中 $c$ 表示上下文词的索引。上下文词向量不用做词嵌入，只是用于辅助概率计算。

输入矩阵与输出矩阵

SkipGram 模型通过两个矩阵定义词向量：

输入矩阵（Input Matrix）：记为 $W \in R^{V \times d}$ ，其中 $V$ 是词汇表大小， $d$ 是向量维度。矩阵的每一行对应一个词的中心词向量。例如，词 $w$ 的中心词向量为 $v_{w} = W [w, :] \in R^{d}$ 。
输出矩阵（Output Matrix）：记为 $W^{'} \in R^{d \times V}$ ，矩阵的每一列对应一个词的上下文词向量。例如，词 $c$ 的上下文词向量为 $u_{c} = W^{'} [:, c] \in R^{d}$ 。

计算过程

给定一个中心词 $w_{t}$ 和上下文窗口大小 $C$ ，SkipGram 的目标是计算窗口内上下文词的条件概率。具体步骤如下：

获取中心词向量
通过输入矩阵 $W$ 得到中心词 $w_{t}$ 的向量 $v_{t} = W [w_{t}, :] \in R^{d}$ 。
计算上下文词得分
对每个可能的上下文词 $w_{c}$ ，计算其与中心词的相似度得分：

score (w_{c} ∣ w_{t}) = v_{t}^{T} u_{c} = k = 1 \sum d v_{t, k} \cdot u_{c, k}

Softmax 归一化
将得分转换为概率分布：

P (w_{c} ∣ w_{t}) = \frac{exp ( v _{t}^{T} u _{c} )}{\sum _{k = 1}^{V} exp ( v _{t}^{T} u _{k} )}

下图演示了词汇表大小为5，词嵌入维度为3时SkipGram的计算流程：

损失函数

SkipGram 使用负对数似然损失函数。对每个中心词 $w_{t}$ 和上下文窗口内的所有上下文词 ${w_{t + j} ∣ - C \leq j \leq C, j \neq = 0}$ ，损失函数定义为：

L = - \frac{1}{T} t = 1 \sum T - C \leq j \leq C, j \neq = 0 \sum lo g P (w_{t + j} ∣ w_{t})

其中：

$T$ 是训练文本的总词数。
内层求和表示对上下文窗口内的每个词计算负对数概率。
外层求和表示对所有中心词求平均。

关键优化技术

1. 层次Softmax

使用霍夫曼树编码词频
时间复杂度从 $O (∣ V ∣)$ 降为 $O (lo g ∣ V ∣)$
节点概率计算： $p (p a t h (n (w), j)) = σ (v_{n}^{T} \cdot h)$

2. 负采样 (Negative Sampling)

用噪声对比估计替代softmax
目标函数变为： $lo g σ (v_{o}^{T} h) + \sum_{k = 1}^{K} E_{w_{k} \sim P_{n}} [lo g σ (- v_{w_{k}}^{T} h)]$

参数设置

向量维度：通常100-500维
窗口大小：5-10
负样本数：5-20

优缺点

优点：

高效训练。
捕获语义规律。

局限：

无法处理一词多义.
上下文窗口固定。

通过分布式表示突破传统one-hot编码的维度灾难，为NLP带来里程碑式进展。

Quartz 4

Explorer

Word2Vec

核心思想

模型架构

CBOW (Continuous Bag-of-Words)

上下文词向量与中心词向量

输入矩阵与输出矩阵

计算过程

损失函数

Skip-gram

简介

中心词向量与上下文词向量

输入矩阵与输出矩阵

计算过程

损失函数

关键优化技术

1. 层次Softmax

2. 负采样 (Negative Sampling)

参数设置

优缺点

Graph View

Table of Contents