2.2.1-均方误差损失函数

概述

均方误差是机器学习中用于评估回归模型性能的一种常见损失函数。它通过计算预测值与实际值之间差的平方的平均值来量化模型预测的准确性。

定义

设有一组预测值 ${\overset{y}{^}_{1}, \overset{y}{^}_{2}, \dots, \overset{y}{^}_{n}}$ 和对应的实际值 ${y_{1}, y_{2}, \dots, y_{n}}$ ，其中 $n$ 表示样本数量。则均方误差（MSE）定义为：

MSE = \frac{1}{n} i = 1 \sum n (\overset{y}{^}_{i} - y_{i})^{2}

这里， $(\overset{y}{^}_{i} - y_{i})$ 表示第 $i$ 个样本的预测误差，而 $(\overset{y}{^}_{i} - y_{i})^{2}$ 则表示该误差的平方。求和后除以样本数量 $n$ 得到所有样本的均方误差。

梯度计算

均方误差损失函数通常用于回归问题，其定义为：

L (y, \overset{y}{^}) = \frac{1}{2} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

其中， $y_{i}$ 是真实值， $\overset{y}{^}_{i}$ 是预测值。为了进行梯度更新，我们需要对损失函数关于模型的参数求导。这里假设模型的预测值 $\overset{y}{^}_{i}$ 是通过线性组合 $w^{T} x_{i} + b$ 得到的，其中 $w$ 是权重向量， $x_{i}$ 是输入特征向量， $b$ 是偏置项。

权重 $w$ 的导数

考虑到链式法则，MSE 损失函数对权重 $w$ 的导数可以表示为：

\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y ^} \cdot \frac{\partial y ^}{\partial w}

由于 $\overset{y}{^}_{i} = w^{T} x_{i} + b$ ，因此有：

\frac{\partial y ^ _{i}}{\partial w} = x_{i}

而 $\frac{\partial L}{\partial y ^ _{i}} = - (y_{i} - \overset{y}{^}_{i})$ ，因此：

\frac{\partial L}{\partial w} = - i = 1 \sum n (y_{i} - \overset{y}{^}_{i}) \cdot x_{i}

注意到在实际应用中，我们通常去掉负号来使得梯度下降朝着减少损失的方向前进，所以最终的形式为：

\frac{\partial L}{\partial w} = i = 1 \sum n (\overset{y}{^}_{i} - y_{i}) \cdot x_{i}

偏置 $b$ 的导数

类似地，对于偏置项 $b$ ，我们有：

\frac{\partial L}{\partial b} = i = 1 \sum n (\overset{y}{^}_{i} - y_{i})

优点和缺点

优点

易于理解
- MSE 的概念直观易懂，便于解释。
数学性质良好
- 由于其基于平方，MSE 在数学上处理起来比较方便，尤其是在推导公式和优化算法时。
强调大误差
- 由于采用平方的方式放大了较大误差的影响，使得MSE对异常值较为敏感，有助于在训练过程中更关注这些大误差情况。

缺点

对异常值敏感
- 虽然放大较大的误差可以帮助我们发现异常值，但这同时也是MSE的一个缺点。一个异常值就可以导致MSE显著增加，从而可能误导模型的学习过程。
单位不一致：
- MSE的结果是误差的平方，这意味着它的单位是原数据单位的平方，这有时可能会造成理解上的不便。

Quartz 4

Explorer

2.2.1-均方误差损失函数

概述

定义

梯度计算

权重 $w$ 的导数

偏置 $b$ 的导数

优点和缺点

优点

缺点

Graph View

Table of Contents

Quartz 4

Explorer

2.2.1-均方误差损失函数

概述

定义

梯度计算

权重 w 的导数

偏置 b 的导数

优点和缺点

优点

缺点

Graph View

Table of Contents

权重 $w$ 的导数

偏置 $b$ 的导数