正则化
一系列通过约束模型复杂度来防止过拟合、提高泛化能力的技术。权重衰减和 Dropout 是最常见的方法。
正则化涵盖了通过约束学习过程来防止过拟合的各种技术。方法包括在损失函数中添加惩罚项、随机网络扰动以及数据操作。当模型容量远超训练数据所需时,正则化尤为关键。
- L2 正则化(权重衰减):在损失函数中添加权重平方和的惩罚项,促使权重趋向较小值。等效于对权重施加高斯先验
- L1 正则化:添加权重绝对值之和的惩罚项,促使部分权重精确为零,实现特征选择和模型稀疏化
- Dropout:训练时以概率 p 随机将神经元输出置零,迫使网络学习冗余表示。推理时使用全部神经元但按 (1-p) 缩放
- 数据增强:通过对训练数据施加随机变换(翻转、裁剪、色彩抖动等)隐式正则化模型
- 早停:监控验证集损失,在其开始上升时停止训练,防止对训练集过度拟合
在图像识别领域,现代架构通常组合使用多种正则化技术:权重衰减 + Dropout + 数据增强 + 批归一化。选择合适的正则化强度需要通过验证集性能来调优。