Espacio latente
Un espacio de representación comprimido de menor dimensionalidad donde los modelos generativos codifican las características esenciales de datos de alta dimensionalidad como imágenes.
Un espacio latente es un espacio de representación abstracto de menor dimensionalidad en el que datos de alta dimensionalidad (imágenes, texto, audio) se comprimen mediante un codificador aprendido. Una imagen RGB de 512x512 contiene aproximadamente 786.000 dimensiones, pero el cuello de botella de un autoencoder puede comprimirla en unos pocos cientos de dimensiones capturando la estructura esencial.
Una propiedad clave es que los puntos de datos semánticamente similares se mapean a ubicaciones cercanas. En un espacio latente de imágenes faciales, atributos como la intensidad de la sonrisa o la edad corresponden a direcciones específicas, permitiendo la manipulación mediante aritmética vectorial.
- Espacio latente VAE: Los Autoencoders Variacionales regularizan la distribución latente para aproximar una normal estándar, produciendo un espacio suave donde cualquier punto muestreado decodifica en una salida plausible
- Espacio latente GAN: Un generador GAN mapea vectores de ruido a imágenes realistas. Los espacios
WyW+de StyleGAN ofrecen superior desenredo y editabilidad - Difusión latente: Stable Diffusion realiza la difusión en el espacio latente de un VAE en lugar del espacio de píxeles, reduciendo el costo en órdenes de magnitud mientras mantiene la calidad
Comprender los espacios latentes es central para la generación de imágenes, transferencia de estilo, edición semántica y detección de anomalías. t-SNE y UMAP se usan comúnmente para visualizar espacios latentes en 2D para análisis de modelos.