过拟合
模型过度学习训练数据 (包括噪声和特异性) 导致在未见数据上性能下降 (泛化能力差) 的现象。
过拟合发生在模型记忆训练数据的噪声而非学习可泛化特征时,导致对新数据的预测性能下降。典型症状:训练精度超过 99% 而验证精度停滞在 70% 左右。当模型复杂度与可用数据量不成比例时就会出现。
在图像识别中,用数百万参数的 CNN 在几千张图像上训练几乎不可避免地会过拟合。ResNet-50 的 2500 万参数需要 ImageNet 规模的数据 (128 万张图像) 才能在不使用激进正则化的情况下正确泛化。
- 数据增强:通过旋转、翻转、颜色抖动和随机裁剪扩展训练数据。最有效的对策之一,无需额外数据收集即可改善泛化
- Dropout:训练时随机停用神经元 (通常 50%),防止特征共适应。推理时所有神经元激活,输出按比例缩放
- 早停:当验证损失停止改善时停止训练,保存泛化最佳点的模型
- 正则化:L2 权重衰减惩罚大权重,约束复杂度并鼓励更简单的表示
迁移学习也能对抗过拟合:预训练的特征提取器使得从有限的任务特定数据中实现强泛化成为可能,而从头训练则无法做到。