定义与核心思想

权重衰减是一种通过约束模型权重幅度来防止过拟合的正则化方法。其核心在于:

  • 抑制大权重:在损失函数中增加权重的L2范数惩罚项,迫使模型参数趋向较小值。

  • 平滑决策边界:较小的权重通常对应更简单的模型结构,降低对训练数据噪声的敏感度。

数学形式化表达

修正后的损失函数

原始损失函数被改造为:

其中惩罚项系数控制正则化强度,表示所有权重的平方和。

参数更新动力学

使用随机梯度下降时,权重更新规则演变为:

该式揭示权重在每次更新时会被主动缩减,衰减速率为

技术特性分析

与L2正则化的等价性

  • 在标准梯度下降法中,权重衰减完全等价于显式的L2正则化
  • 自适应优化器(如Adam)中两者可能存在差异

参数缩放对称性

对线性模型,权重衰减保持的对称性,这使得模型对特征尺度具有鲁棒性。

4. 超参数调节策略

  • 典型取值范围,深层网络常用较小值。

  • 调优方法

    • 交叉验证法:在验证集上评估不同的泛化性能
    • 学习曲线法:监控训练/验证损失随变化趋势

6. 工程实践要点

  • 批归一化协同:当使用BatchNorm层时,建议减小权重衰减强度或仅对最后一层施加。

  • 迁移学习场景:对预训练部分的权重使用弱衰减(),新添加层使用强衰减()。

  • 稀疏性需求:需要特征选择时应改用L1正则化。

  • 优化器适配:与Adam配合使用时推荐取值小于SGD场景1-2个数量级。

7. 理论局限性

  • 非凸优化的双刃剑:在高度非凸的深度神经网络中,可能阻碍有用的大幅度权重更新。

  • 特征相关性干扰:对高度线性相关的特征可能产生非预期约束。

  • 噪声放大效应:在低质量数据场景可能加剧欠拟合。