1. 基本概念
Linear Probing 是迁移学习中的一种常用评估/微调方法,其核心思想是:
- 冻结(Freeze) 预训练模型的特征提取器(全连接层以外的层)。
- 仅训练新添加的线性分类层(通常是全连接层)。
2. 主要作用
-
评估特征质量:通过线性分类器性能反映预训练特征的表征能力。
-
小数据适配:在目标数据集较小时防止过拟合。
-
解耦分析:分离特征学习和分类器优化的过程。
3. 典型应用场景
| 场景 | 说明 |
|---|---|
| 特征评估 | 验证预训练模型是否学习到可迁移的特征表示 |
| 少样本学习 | 当目标领域数据量 <1% 原始数据时 |
| 消融实验 | 对比不同预训练方法的效果 |
4. 实现步骤
# PyTorch 示例代码
model = PretrainedModel() # 加载预训练模型
# 冻结所有参数
for param in model.parameters():
param.requires_grad = False
# 替换最后的分类层
model.fc = nn.Linear(feat_dim, num_classes)
# 仅训练分类层
optimizer = torch.optim.Adam(model.fc.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()5. 与 Fine-tuning 的对比
| 特性 | Linear Probing | Full Fine-tuning |
|---|---|---|
| 可训练参数 | 仅分类层 | 全部参数 |
| 训练数据需求 | 小(1%~10%) | 大(>10%) |
| 计算成本 | 低 | 高 |
| 过拟合风险 | 低 | 高 |
| 特征适应性 | 固定 | 可调整 |
6. 优缺点分析
✅ 优点:
-
训练高效(参数更新量少)。
-
结果稳定(避免破坏预训练特征)。
-
可解释性强(直接反映特征质量)。
❌ 缺点:
-
特征表达能力受限(特征提取器被冻结)。
-
依赖预训练特征的质量。
7. 最佳实践建议
-
当目标域与源域差异较小时优先使用
-
作为完整微调前的快速验证手段
-
结合分段学习率使用(如最后几层小幅微调)
-
与k-NN等非参数分类器配合验证
注意:当Linear Probing效果不佳时,说明需要调整特征提取器或进行完整微调