2.2.2-交叉熵损失函数

概述

交叉熵误差是机器学习中，尤其是分类问题中广泛使用的损失函数。它用于衡量模型预测的概率分布与实际标签的真实分布之间的差异。

对于二分类问题，设模型输出的预测概率为 $p (y = 1∣ x)$ ，即给定输入 $x$ ，样本属于类别1的概率；而真实标签为 $y$ （0或1）。则交叉熵损失函数定义为：

L = - [y lo g (p) + (1 - y) lo g (1 - p)]

对于多分类问题，假设我们有 $C$ 个类别，则模型输出的是一个 $C$ 维的概率向量 $\overset{y}{^}$ ，其中每个元素表示属于对应类别的概率。若 $y$ 是真实的类别标签（通常是一个one-hot向量），则交叉熵损失函数定义为：

L = - i = 1 \sum C y_{i} lo g (\overset{y}{^}_{i})

这里， $y_{i}$ 表示第 $i$ 类的实际概率（0或1）， $\overset{y}{^}_{i}$ 表示模型预测的第 $i$ 类的概率。

当 $y = 1$ 时（即实际类别是正类）：
- 当 $\overset{y}{^} = 1$ （模型完全确信这个样本属于正类），损失 $L = 0$ 。
- 随着 $\overset{y}{^}$ 的值减小（模型变得不那么确信），损失迅速增加。
- 当 $\overset{y}{^}$ 接近于0时（模型非常确信这个样本不属于正类，这与实际情况相反），损失接近无穷大。
当 $y = 0$ 时（即实际类别是负类）：
- 当 $\overset{y}{^} = 0$ （模型完全确信这个样本不属于正类），损失 $L = 0$ 。
- 随着 $\overset{y}{^}$ 的值增加（模型变得不那么确信或错误地偏向正类），损失迅速增加。
- 当 $\overset{y}{^}$ 接近于1时（模型非常确信这个样本属于正类，这与实际情况相反），损失接近无穷大。

假设 $p$ 由softmax生成， $p_{i} = \frac{e ^{z_{i}}}{\sum _{k = 1}^{C} e ^{z_{k}}}$ ， $z_{i}$ 是模型输出的原始分数。

计算损失 $L$ 对原始分数 $z_{j}$ 的梯度 $\frac{\partial L}{\partial z _{j}}$

\frac{\partial L}{\partial z _{j}} = k = 1 \sum C \frac{\partial L}{\partial p _{k}} \cdot \frac{\partial p _{k}}{\partial z _{j}}

计算 $\frac{\partial L}{\partial p _{k}}$

\frac{\partial L}{\partial p _{k}} = - \frac{y _{k}}{p _{k}}

计算Softmax的导数 $\frac{\partial p _{k}}{\partial z _{j}}$

\frac{\partial p _{j}}{\partial z _{j}} = p_{j} (1 - p_{j})

\frac{\partial p _{k}}{\partial z _{j}} = - p_{k} p_{j}

综上可得：

\frac{\partial p _{k}}{\partial z _{j}} = p_{k} (δ_{kj} - p_{j})

其中 $δ_{kj}$ 是Kronecker delta函数（ $δ_{kj} = 1$ 当且仅当 $k = j$ ，否则为0）。

带回到原式

\frac{\partial L}{\partial z _{j}} = k = 1 \sum C (- \frac{y _{k}}{p _{k}}) \cdot p_{k} (δ_{kj} - p_{j}) = - k = 1 \sum C y_{k} (δ_{kj} - p_{j})

展开求和项：

合并结果：

\frac{\partial L}{\partial z _{j}} = - y_{j} (1 - p_{j}) + k \neq = j \sum y_{k} p_{j} = - y_{j} + y_{j} p_{j} + p_{j} k \neq = j \sum y_{k}

关键性质：由于真实标签 $y$ 是概率分布（ $\sum_{k = 1}^{C} y_{k} = 1$ ），最终化简为：

\frac{\partial L}{\partial z _{j}} = - y_{j} + p_{j} \cdot 1 = p_{j} - y_{j}