Pooling
Operación de submuestreo que reduce las dimensiones espaciales de los mapas de características agregando valores dentro de regiones locales, reduciendo el cómputo mientras añade invariancia a la traslación.
El pooling es una operación de submuestreo espacial en CNNs que reduce las dimensiones de los mapas de características resumiendo valores dentro de una ventana de tamaño fijo. Al colapsar regiones locales en valores únicos, el pooling disminuye el cómputo mientras introduce invariancia a la traslación ante pequeños desplazamientos espaciales.
La configuración más común es max pooling de 2x2 con stride 2, seleccionando el máximo en cada región no superpuesta. Esto reduce a la mitad el ancho y alto, reduciendo el área espacial a un cuarto. VGG-16 aplica max pooling cinco veces, reduciendo la entrada de 224x224 a 7x7 antes de las capas completamente conectadas.
- Max pooling: Retiene la activación más fuerte por región, preservando características salientes como bordes. Dominante en arquitecturas de clasificación y detección
- Average pooling: Calcula la media por región. Global Average Pooling (GAP) colapsa cada canal a un único escalar, reemplazando capas completamente conectadas y reduciendo el sobreajuste
- Convolución con stride: Usa parámetros aprendibles para el submuestreo (stride 2), minimizando la pérdida de información comparado con operaciones de pooling fijas
Las arquitecturas modernas reemplazan cada vez más el pooling con convoluciones con stride, aunque GAP sigue siendo estándar como cabeza clasificadora. Para segmentación, técnicas como el almacenamiento de índices de pooling y convoluciones atrous preservan la precisión espacial.