原理细节
Softmax回归(多类逻辑回归)用于多分类问题。给定输入特征向量 和类别标签 ,假设函数定义为:
其中 是权重矩阵, 对应第 类的参数向量。
损失函数
Softmax回归一般使用交叉熵损失函数,带L2正则化的损失公式如下:
其中是样本个数,是类别个数, 是示性函数(当样本 属于类 时为1), 是正则化系数。
求导过程
对单个样本 的损失求导:
- 计算预测概率:
其中 是Kronecker delta函数
- 交叉熵损失对 的梯度:
权重参数更新
采用梯度下降法更新参数:
其中 是学习率
应用场景
-
多类别分类问题(K ≥ 3)
-
图像分类(如MNIST手写数字识别)
-
自然语言处理中的标签预测
-
推荐系统中的多类别物品推荐
优点
-
输出概率解释性强
-
可处理线性可分或近似线性可分的数据
-
计算效率高,适合大规模数据
-
天然支持多分类,无需组合多个二分类器
缺点
-
只能学习线性决策边界
-
假设各类别之间互斥
-
对特征间的复杂非线性关系建模能力有限
-
类别数量极大时计算成本显著增加