Regularización
Familia de técnicas que restringen la complejidad del modelo para prevenir el sobreajuste y mejorar la generalización. La decaimiento de pesos y el dropout son los ejemplos más comunes.
La regularización abarca técnicas que restringen el aprendizaje para prevenir el sobreajuste. Los enfoques incluyen términos de penalización en la función de pérdida, perturbaciones estocásticas de la red y manipulación de datos. En la práctica, se combinan múltiples métodos.
El entrenamiento estándar de reconocimiento de imágenes combina varias técnicas. ResNet usa regularización L2 (weight decay = 0.0001) con aumento de datos. EfficientNet añade dropout y Stochastic Depth, cada uno contribuyendo efectos complementarios.
- Regularización L2 (Weight Decay): Añade la suma de pesos al cuadrado λΣw² a la pérdida, penalizando pesos grandes y fomentando funciones más suaves. Valores típicos: λ = 0.0001 a 0.001
- Regularización L1: Añade la suma absoluta λΣ|w|, promoviendo la dispersión al llevar algunos pesos a cero para una selección implícita de características
- Dropout: Desactiva cada neurona con probabilidad p (típicamente 0.5) durante el entrenamiento, aproximando el aprendizaje por ensamble y previniendo la dependencia de caminos
- Normalización por lotes: Normaliza las entradas de cada capa para reducir el desplazamiento covariante interno, proporcionando regularización implícita que a veces hace innecesario el dropout
Investigaciones recientes posicionan el aumento de datos como una regularización potente. Mixup (interpolación lineal de imágenes), CutMix (reemplazo de parches) y RandAugment (búsqueda automatizada) demuestran efectos fuertes que complementan las penalizaciones de pesos tradicionales.