Codificador-Decodificador

Una arquitectura de red neuronal que consiste en un codificador que comprime la entrada en una representación latente compacta y un decodificador que reconstruye la salida deseada a partir de esa representación.

La arquitectura Codificador-Decodificador es una red de dos etapas donde un codificador comprime la entrada en una representación de características de baja dimensión y un decodificador reconstruye la salida objetivo. En visión por computadora, este patrón sustenta la segmentación semántica, la superresolución y la traducción imagen a imagen.

El codificador aplica convolución y pooling repetidos, reduciendo la resolución espacial mientras aumenta la profundidad de canales. Una entrada de 256x256x3 podría comprimirse a 8x8x512. El decodificador invierte esto usando convoluciones transpuestas o upsampling bilineal, restaurando las dimensiones espaciales para la salida final.

U-Net: Añade conexiones de salto desde cada etapa del codificador a la etapa correspondiente del decodificador, preservando detalles espaciales finos perdidos durante la compresión. Ampliamente usado en segmentación de imágenes médicas
SegNet: Reutiliza los índices de max-pooling del codificador durante el upsampling del decodificador, reduciendo parámetros mientras mantiene una delineación precisa de bordes
Cuello de botella: La unión entre codificador y decodificador tiene la resolución espacial más baja, codificando contexto global sobre toda la entrada

Los codificadores preentrenados (ResNet, VGG en ImageNet) proporcionan extractores de características potentes mediante transferencia de aprendizaje, permitiendo alta precisión con datos etiquetados limitados. El diseño del decodificador impacta significativamente la calidad de la salida.

Codificador-Decodificador

Términos relacionados

Artículos relacionados