Sobreajuste

Fenómeno en el que un modelo aprende demasiado bien los datos de entrenamiento, incluyendo ruido y particularidades, resultando en un rendimiento degradado en datos no vistos (pobre generalización).

El sobreajuste ocurre cuando un modelo memoriza el ruido de los datos de entrenamiento en lugar de aprender características generalizables, degradando la predicción en datos nuevos. Un síntoma clásico: la precisión de entrenamiento supera el 99% mientras la precisión de validación se estanca alrededor del 70%. Surge cuando la complejidad del modelo es desproporcionada respecto a los datos disponibles.

En reconocimiento de imágenes, entrenar una CNN con millones de parámetros en unos pocos miles de imágenes hace que el sobreajuste sea casi inevitable. Los 25 millones de parámetros de ResNet-50 requieren datos a escala de ImageNet (1,28M imágenes) para una generalización adecuada sin regularización agresiva.

Aumento de datos: Expande los datos de entrenamiento mediante rotaciones, volteos, variación de color y recortes aleatorios. Una de las contramedidas más efectivas, mejorando la generalización sin recolección adicional de datos
Dropout: Desactiva aleatoriamente neuronas durante el entrenamiento (típicamente 50%), previniendo la coadaptación de características. En inferencia, todas las neuronas están activas con salidas escaladas
Parada temprana: Detiene el entrenamiento cuando la pérdida de validación deja de mejorar, guardando el modelo en su mejor punto de generalización
Regularización: La decadencia de pesos L2 penaliza pesos grandes, restringiendo la complejidad y fomentando representaciones más simples

El aprendizaje por transferencia también combate el sobreajuste: los extractores de características preentrenados permiten una fuerte generalización a partir de datos limitados específicos de la tarea que serían imposibles entrenando desde cero.

Sobreajuste

Términos relacionados

Artículos relacionados