K-Fold Cross-Validation

1. 基本概念

K折交叉验证（K-Fold Cross-Validation）是一种用于评估机器学习模型泛化能力的统计学方法。通过将数据集分成K个子集（一般5到10），循环使用其中1个子集作为验证集，其余K-1个子集作为训练集，最终综合K次评估结果。

核心目标

更可靠地评估模型性能。
减少因数据划分不同导致的评估偏差。
充分利用有限的数据集。

2. 工作流程

1. 将数据集随机打乱并均等分为K个子集（Fold）
2. For i = 1 to K:
   a. 选择第i个Fold作为验证集
   b. 使用剩余K-1个Fold合并为训练集
   c. 在训练集上训练模型
   d. 在验证集上评估模型
3. 计算K次评估结果的平均值作为最终性能指标

3. 优缺点对比

优点

比简单的train-test split更可靠，减少数据划分的随机性影响。
尤其适合小规模数据集。
可检测模型是否对特定数据敏感。

缺点

计算成本随K值增加而升高，极端情况下（K=N）计算量极大（LOOCV）。
不适用于时序数据（需特殊处理）

4. 变体方法

Stratified K-Fold：保持每个折的类别分布一致
Repeated K-Fold：多次运行K-Fold取平均值
Group K-Fold：确保同一组数据不分散在不同折中

5. 注意事项

数据预处理：应在每次划分后进行（如标准化）。
数据泄漏：避免在划分前进行全局预处理。
K值选择：通常5或10，数据集越大可用更小的K。
分层策略：分类问题中推荐使用分层版本。
计算资源：K值与训练时间成正比。

6. 适用场景

数据集规模较小（<10,000样本）
需要精确评估模型性能时
对比不同模型的性能差异
超参数调优（配合GridSearch使用）

总结：K-Fold CV是平衡计算成本和评估可靠性的实用方法，适合大多数机器学习模型的评估需求，尤其在小数据集场景中表现突出。