Normalización por lotes
Técnica que normaliza las entradas de cada capa a lo largo de un mini-lote a media cero y varianza unitaria, estabilizando y acelerando el entrenamiento de redes profundas.
La normalización por lotes (Batch Normalization, BatchNorm) normaliza las entradas de cada capa a lo largo del mini-lote a media cero y varianza unitaria. Propuesta por Ioffe y Szegedy en 2015, estabilizó y aceleró el entrenamiento de redes profundas al reducir el desplazamiento covariante interno.
Después de la normalización, los parámetros aprendibles de escala (γ) y desplazamiento (β) permiten a la red recuperar la distribución original si es beneficioso. Durante la inferencia, la media y varianza acumuladas durante el entrenamiento reemplazan las estadísticas del lote.
- Tasas de aprendizaje más altas: La normalización estabiliza las magnitudes de los gradientes, permitiendo tasas de aprendizaje mayores que aceleran la convergencia y hacen el ajuste más tolerante
- Efecto de regularización: El ruido en las estadísticas del mini-lote proporciona una regularización leve, a veces reduciendo la necesidad de Dropout. Combinar ambos puede ser contraproducente
- Ubicación: Típicamente se inserta después de capas convolucionales o completamente conectadas y antes de la función de activación. Algunas arquitecturas la colocan después de la activación
Cuando los tamaños de lote son pequeños, las estadísticas del lote se vuelven poco fiables. Las alternativas incluyen Layer Normalization (a través de características), Instance Normalization (por muestra, por canal) y Group Normalization. En generación de imágenes, Adaptive Instance Normalization (AdaIN) inyecta información de estilo a través de los parámetros de normalización.