原理细节

Softmax回归(多类逻辑回归)用于多分类问题。给定输入特征向量 和类别标签 ,假设函数定义为:

其中 是权重矩阵, 对应第 类的参数向量。

损失函数

Softmax回归一般使用交叉熵损失函数,带L2正则化的损失公式如下:

其中是样本个数,是类别个数, 是示性函数(当样本 属于类 时为1), 是正则化系数。

求导过程

对单个样本 的损失求导:

  1. 计算预测概率:

其中 是Kronecker delta函数

  1. 交叉熵损失对 的梯度:

权重参数更新

采用梯度下降法更新参数:

其中 是学习率

应用场景

  1. 多类别分类问题(K ≥ 3)

  2. 图像分类(如MNIST手写数字识别)

  3. 自然语言处理中的标签预测

  4. 推荐系统中的多类别物品推荐

优点

  1. 输出概率解释性强

  2. 可处理线性可分或近似线性可分的数据

  3. 计算效率高,适合大规模数据

  4. 天然支持多分类,无需组合多个二分类器

缺点

  1. 只能学习线性决策边界

  2. 假设各类别之间互斥

  3. 对特征间的复杂非线性关系建模能力有限

  4. 类别数量极大时计算成本显著增加