定义与核心思想
权重衰减是一种通过约束模型权重幅度来防止过拟合的正则化方法。其核心在于:
-
抑制大权重:在损失函数中增加权重的L2范数惩罚项,迫使模型参数趋向较小值。
-
平滑决策边界:较小的权重通常对应更简单的模型结构,降低对训练数据噪声的敏感度。
数学形式化表达
修正后的损失函数
原始损失函数被改造为:
其中惩罚项系数控制正则化强度,表示所有权重的平方和。
参数更新动力学
使用随机梯度下降时,权重更新规则演变为:
该式揭示权重在每次更新时会被主动缩减,衰减速率为。
技术特性分析
与L2正则化的等价性
- 在标准梯度下降法中,权重衰减完全等价于显式的L2正则化
- 自适应优化器(如Adam)中两者可能存在差异
参数缩放对称性
对线性模型,权重衰减保持与的对称性,这使得模型对特征尺度具有鲁棒性。
4. 超参数调节策略
-
典型取值范围:,深层网络常用较小值。
-
调优方法:
- 交叉验证法:在验证集上评估不同的泛化性能
- 学习曲线法:监控训练/验证损失随变化趋势
6. 工程实践要点
-
批归一化协同:当使用BatchNorm层时,建议减小权重衰减强度或仅对最后一层施加。
-
迁移学习场景:对预训练部分的权重使用弱衰减(),新添加层使用强衰减()。
-
稀疏性需求:需要特征选择时应改用L1正则化。
-
优化器适配:与Adam配合使用时推荐取值小于SGD场景1-2个数量级。
7. 理论局限性
-
非凸优化的双刃剑:在高度非凸的深度神经网络中,可能阻碍有用的大幅度权重更新。
-
特征相关性干扰:对高度线性相关的特征可能产生非预期约束。
-
噪声放大效应:在低质量数据场景可能加剧欠拟合。