语言模型

1. 什么是语言模型？

语言模型（Language Model, LM）是对自然语言序列的概率分布建模的统计工具或机器学习模型。其核心目标是计算一个文本序列 $W = (w_{1}, w_{2}, ..., w_{n})$ 出现的概率 $P (W)$ ，或预测下一个词的概率分布 $P (w_{t + 1} ∣ w_{1}, ..., w_{t})$ 。

2. 发展历程

统计语言模型（1950s-2010s）
- 基于n-gram的马尔科夫假设
- 使用平滑技术解决数据稀疏问题
神经语言模型（2010s-至今）
- RNN/LSTM/GRU序列建模（2014）
- Transformer架构（2017）
- 预训练模型（BERT, GPT等）

3. 主要类型

3.1 统计语言模型

$P (w_{1}, w_{2}, ..., w_{n}) \approx \prod_{t = 1}^{n} P (w_{t} ∣ w_{t - k}^{t - 1})$

典型方法：n-gram、隐马尔可夫模型（HMM）。

3.2 神经语言模型

$P (w_{t} ∣ w_{< t}) = softmax (E h_{t - 1})$

典型架构：
- 自回归模型（如GPT）：从左到右生成。
- 非自回归模型（如BERT）：双向上下文建模。

4. 核心概念

4.1 概率计算

链式法则： $P (w_{1}, ..., w_{n}) = P (w_{1}) P (w_{2} ∣ w_{1}) ... P (w_{n} ∣ w_{1}, ..., w_{n - 1})$
困惑度（Perplexity）： $PP (W) = exp (- \frac{1}{N} \sum_{i = 1}^{N} lo g P (w_{i} ∣ w_{< i}))$

4.2 上下文建模

自注意力机制： $Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$ 其中 $Q = W_{Q} X$ , $K = W_{K} X$ , $V = W_{V} X$

5. 挑战与改进方向

数据偏差：训练数据中的偏见会被模型放大
长程依赖：处理长文本时上下文遗忘问题
计算效率：Transformer的 $O (n^{2})$ 复杂度限制
可解释性：神经网络的黑箱特性

6. 发展趋势

多模态语言模型（文本+图像/音频）
参数高效微调（如LoRA, Prompt Tuning）
推理能力增强（Chain-of-Thought）
小型化部署（模型压缩技术）

Quartz 4

Explorer