GloVe 模型笔记

1. 模型简介

GloVe（Global Vectors for Word Representation）是一种结合全局统计信息和局部上下文窗口的词向量学习方法。其核心思想是通过对词共现矩阵进行分解，捕捉词语之间的语义关系。

2. 网络结构与关键公式

2.1 共现矩阵构建

定义词对 $(i, j)$ 在语料库中的共现次数为 $X_{ij}$
使用滑动窗口（通常为5-10词）统计共现频率
引入距离衰减函数： $X_{ij} = \sum_{k = 1}^{N} \frac{1}{d _{k}}$ ，其中 $d_{k}$ 是窗口内词对距离

2.2 模型参数

输入词向量： $w_{i} \in R^{d}$ （对应中心词）
输出词向量： $\tilde{w}_{j} \in R^{d}$ （对应上下文词）
双偏置项： $b_{i} \in R$ （中心词偏置）， $\tilde{b}_{j} \in R$ （上下文词偏置）

2.3 网络层级结构

输入层：词索引 $i$ 和 $j$ 的 one-hot 表示
嵌入层：将索引映射为稠密向量 $w_{i}$ 和 $\tilde{w}_{j}$
交互计算层：计算向量内积 $w_{i}^{T} \tilde{w}_{j}$
偏置叠加层：添加双偏置项 $b_{i} + \tilde{b}_{j}$
对数变换层：预测目标 $lo g X_{ij}$
损失计算层：加权平方误差评估

2.4 损失函数

目标函数最小化加权平方误差：

J = i, j = 1 \sum V f (X_{ij}) (w_{i}^{T} \tilde{w}_{j} + b_{i} + \tilde{b}_{j} - lo g X_{ij})^{2}

其中：

$V$ 是词汇表大小
权重函数 $f (X_{ij})$ 形式为：

f (x) = {(x / x_{ma x})^{α} 1 if x < x_{ma x} otherwise

（典型参数： $x_{ma x} = 100, α = 0.75$ ）

3. 关键组件说明

3.1 权重函数设计

高频词抑制：通过 $x_{ma x}$ 截断过高的共现计数
低频词保护： $α$ 控制衰减曲线斜率（0.75 时低频词权重更高）
稀疏性处理： $f (0) = 0$ 自动忽略零共现对

3.2 参数更新

使用AdaGrad优化器进行随机梯度下降
最终词向量采用对称处理： $w_{i}^{f ina l} = (w_{i} + \tilde{w}_{i}) /2$
学习率典型值：0.05-0.1

4. 结构特性分析

结构特征	技术细节
参数规模	$2 \times V \times d + 2 V$ 个参数（含双向量和双偏置）
计算复杂度	$O (d)$ 每次更新（优于SVD的 $O (d^{2})$ ）
稀疏性处理	仅处理非零共现对，实际计算复杂度$O(	X	) $，$	X	$为非零共现数
并行化能力	可分布式计算不同词对的损失项

5. 数学推导核心

基于共现概率比的词向量空间约束：

\frac{P _{ik}}{P _{jk}} = \frac{X _{ik}}{X _{jk}} \approx exp ((w_{i} - w_{j})^{T} \tilde{w}_{k})

通过取对数并引入偏置项，推导得到：

w_{i}^{T} \tilde{w}_{k} + b_{i} + \tilde{b}_{k} = lo g X_{ik}

最终转化为加权最小二乘问题。

6. 与Word2Vec对比

维度	GloVe	Word2Vec
统计信息利用	显式全局共现矩阵	隐式局部采样
训练稳定性	矩阵分解更稳定	依赖负采样策略
低频词处理	权重函数保护低频词	易受采样不足影响
可解释性	直接优化共现关系	概率预测的间接优化