Época
Una pasada completa por todo el conjunto de datos de entrenamiento durante el entrenamiento del modelo. El número de épocas sirve como medida fundamental del progreso y convergencia del entrenamiento.
Una época representa una pasada completa por todo el conjunto de datos de entrenamiento. Para los 1,28 millones de imágenes de ImageNet con tamaño de lote 256, una época son aproximadamente 5.000 iteraciones. Los modelos típicos de clasificación de imágenes requieren de 90 a 300 épocas para converger.
El número de épocas es un hiperparámetro que controla la suficiencia del entrenamiento. Muy pocas épocas causan subajuste donde los patrones no se capturan. Demasiadas conducen al sobreajuste donde el modelo memoriza ejemplos de entrenamiento a expensas de la generalización.
- Curvas de aprendizaje: Graficar la pérdida de entrenamiento y validación por época revela el comportamiento del modelo. Cuando la pérdida de entrenamiento disminuye mientras la de validación aumenta, el sobreajuste ha comenzado
- Parada temprana: Termina el entrenamiento cuando la pérdida de validación no mejora durante un número establecido de épocas (paciencia, ej. 10), previniendo cómputo innecesario y sobreajuste
- Programación de tasa de aprendizaje: Reduce la tasa de aprendizaje conforme avanzan las épocas. El entrenamiento de ResNet usa decaimiento escalonado, dividiendo por 10 cada 30 épocas para convergencia refinada
La transferencia de aprendizaje reduce drásticamente las épocas requeridas: el ajuste fino de modelos preentrenados típicamente necesita solo 10-30 épocas. La aumentación de datos incrementa el tamaño efectivo del conjunto de datos por época, mejorando la eficiencia y reduciendo el total de épocas necesarias.