1. 什么是语言模型?

语言模型(Language Model, LM)是对自然语言序列的概率分布建模的统计工具或机器学习模型。其核心目标是计算一个文本序列 出现的概率 ,或预测下一个词的概率分布

2. 发展历程

  • 统计语言模型​(1950s-2010s)

    • 基于n-gram的马尔科夫假设
    • 使用平滑技术解决数据稀疏问题
  • 神经语言模型​(2010s-至今)

    • RNN/LSTM/GRU序列建模(2014)
    • Transformer架构(2017)
    • 预训练模型(BERT, GPT等)

3. 主要类型

3.1 统计语言模型

  • 典型方法:n-gram、隐马尔可夫模型(HMM)。

3.2 神经语言模型

  • 典型架构:
    • 自回归模型​(如GPT):从左到右生成。
    • 非自回归模型​(如BERT):双向上下文建模。

4. 核心概念

4.1 概率计算

  • 链式法则:
  • 困惑度(Perplexity):

4.2 上下文建模

  • 自注意力机制: 其中 , ,

5. 挑战与改进方向

  • 数据偏差:训练数据中的偏见会被模型放大

  • 长程依赖:处理长文本时上下文遗忘问题

  • 计算效率:Transformer的复杂度限制

  • 可解释性:神经网络的黑箱特性

6. 发展趋势

  1. 多模态语言模型(文本+图像/音频)

  2. 参数高效微调(如LoRA, Prompt Tuning)

  3. 推理能力增强(Chain-of-Thought)

  4. 小型化部署(模型压缩技术)