2.1.4-Softmax回归

原理细节

Softmax回归（多类逻辑回归）用于多分类问题。给定输入特征向量 $x \in R^{n}$ 和类别标签 $y \in {1, 2, ..., K}$ ，假设函数定义为：

h_{θ} (x) = P (y = 1∣ x; θ) P (y = 2∣ x; θ) ⋮ P (y = K ∣ x; θ) = \frac{1}{\sum _{k = 1}^{K} e ^{θ_{k}^{T} x}} e^{θ_{1}^{T} x} e^{θ_{2}^{T} x} ⋮ e^{θ_{K}^{T} x}

其中 $θ = [θ_{1}, θ_{2}, ..., θ_{K}]^{T}$ 是权重矩阵， $θ_{k} \in R^{n}$ 对应第 $k$ 类的参数向量。

Softmax回归一般使用交叉熵损失函数，带L2正则化的损失公式如下：

J (θ) = - \frac{1}{m} i = 1 \sum m k = 1 \sum K y_{k}^{(i)} lo g h_{θ} (x^{(i)})_{k} + \frac{λ}{2 m} k = 1 \sum K j = 1 \sum n θ_{kj}^{2}

其中 $m$ 是样本个数， $k$ 是类别个数， $y_{k}^{(i)}$ 是示性函数（当样本 $i$ 属于类 $k$ 时为1）， $λ$ 是正则化系数。

对单个样本 $(x^{(i)}, y^{(i)})$ 的损失求导：

\frac{\partial h _{k}}{\partial θ _{j}} = h_{k} (δ_{kj} - h_{j}) x

其中 $δ_{kj}$ 是Kronecker delta函数

\frac{\partial J}{\partial θ _{j}} = \frac{1}{m} i = 1 \sum m (h_{θ} (x^{(i)})_{j} - y_{j}^{(i)}) x^{(i)} + \frac{λ}{m} θ_{j}

采用梯度下降法更新参数：

θ_{j} := θ_{j} - α (\frac{1}{m} i = 1 \sum m (h_{θ} (x^{(i)})_{j} - y_{j}^{(i)}) x^{(i)} + \frac{λ}{m} θ_{j})

其中 $α$ 是学习率