Quartz 4

❯

深度学习基础

❯

❯

❯

权重衰减

Mar 19, 20254 min read

定义与核心思想

权重衰减是一种通过约束模型权重幅度来防止过拟合的正则化方法。其核心在于：

抑制大权重：在损失函数中增加权重的L2范数惩罚项，迫使模型参数趋向较小值。
平滑决策边界：较小的权重通常对应更简单的模型结构，降低对训练数据噪声的敏感度。

数学形式化表达

修正后的损失函数

原始损失函数被改造为：

L_{新} = L_{原始} + \frac{λ}{2} ∥ w ∥^{2}

其中惩罚项系数 $λ$ 控制正则化强度， $∥ w ∥^{2}$ 表示所有权重的平方和。

参数更新动力学

使用随机梯度下降时，权重更新规则演变为：

w \leftarrow w (1 - η λ) - η \nabla L_{原始}

该式揭示权重在每次更新时会被主动缩减，衰减速率为 $η λ$ 。

技术特性分析

与L2正则化的等价性

在标准梯度下降法中，权重衰减完全等价于显式的L2正则化
自适应优化器（如Adam）中两者可能存在差异

参数缩放对称性

对线性模型 $f (x) = w^{T} x + b$ ，权重衰减保持 $α w$ 与 $α^{- 1} x$ 的对称性，这使得模型对特征尺度具有鲁棒性。

4. 超参数调节策略

典型取值范围： $λ \in [1 0^{- 6}, 1 0^{- 2}]$ ，深层网络常用较小值。
调优方法：
- 交叉验证法：在验证集上评估不同 $λ$ 的泛化性能
- 学习曲线法：监控训练/验证损失随 $λ$ 变化趋势

6. 工程实践要点

批归一化协同：当使用BatchNorm层时，建议减小权重衰减强度或仅对最后一层施加。
迁移学习场景：对预训练部分的权重使用弱衰减（ $λ_{ba se}$ ），新添加层使用强衰减（ $λ_{n e w}$ ）。
稀疏性需求：需要特征选择时应改用L1正则化。
优化器适配：与Adam配合使用时推荐 $λ$ 取值小于SGD场景1-2个数量级。

7. 理论局限性

非凸优化的双刃剑：在高度非凸的深度神经网络中，可能阻碍有用的大幅度权重更新。
特征相关性干扰：对高度线性相关的特征可能产生非预期约束。
噪声放大效应：在低质量数据场景可能加剧欠拟合。

Graph View

定义与核心思想
数学形式化表达
修正后的损失函数
参数更新动力学
技术特性分析
与L2正则化的等价性
参数缩放对称性
4. 超参数调节策略
6. 工程实践要点
7. 理论局限性

Created with Quartz v4.4.1 © 2025

GitHub
Discord Community