正则化

一系列通过约束模型复杂度来防止过拟合、提高泛化能力的技术。权重衰减和 Dropout 是最常见的方法。

正则化涵盖了通过约束学习过程来防止过拟合的各种技术。方法包括在损失函数中添加惩罚项、随机网络扰动以及数据操作。当模型容量远超训练数据所需时，正则化尤为关键。

L2 正则化（权重衰减）：在损失函数中添加权重平方和的惩罚项，促使权重趋向较小值。等效于对权重施加高斯先验
L1 正则化：添加权重绝对值之和的惩罚项，促使部分权重精确为零，实现特征选择和模型稀疏化
Dropout：训练时以概率 p 随机将神经元输出置零，迫使网络学习冗余表示。推理时使用全部神经元但按 (1-p) 缩放
数据增强：通过对训练数据施加随机变换（翻转、裁剪、色彩抖动等）隐式正则化模型
早停：监控验证集损失，在其开始上升时停止训练，防止对训练集过度拟合

在图像识别领域，现代架构通常组合使用多种正则化技术：权重衰减 + Dropout + 数据增强 + 批归一化。选择合适的正则化强度需要通过验证集性能来调优。