1. 什么是语言模型?
语言模型(Language Model, LM)是对自然语言序列的概率分布建模的统计工具或机器学习模型。其核心目标是计算一个文本序列 出现的概率 ,或预测下一个词的概率分布 。
2. 发展历程
-
统计语言模型(1950s-2010s)
- 基于n-gram的马尔科夫假设
- 使用平滑技术解决数据稀疏问题
-
神经语言模型(2010s-至今)
- RNN/LSTM/GRU序列建模(2014)
- Transformer架构(2017)
- 预训练模型(BERT, GPT等)
3. 主要类型
3.1 统计语言模型
- 典型方法:n-gram、隐马尔可夫模型(HMM)。
3.2 神经语言模型
- 典型架构:
- 自回归模型(如GPT):从左到右生成。
- 非自回归模型(如BERT):双向上下文建模。
4. 核心概念
4.1 概率计算
- 链式法则:
- 困惑度(Perplexity):
4.2 上下文建模
- 自注意力机制: 其中 , ,
5. 挑战与改进方向
-
数据偏差:训练数据中的偏见会被模型放大
-
长程依赖:处理长文本时上下文遗忘问题
-
计算效率:Transformer的复杂度限制
-
可解释性:神经网络的黑箱特性
6. 发展趋势
-
多模态语言模型(文本+图像/音频)
-
参数高效微调(如LoRA, Prompt Tuning)
-
推理能力增强(Chain-of-Thought)
-
小型化部署(模型压缩技术)