Modelo de difusión
Una clase de modelos generativos que aprenden a revertir un proceso gradual de adición de ruido, generando datos mediante la eliminación iterativa de ruido a partir de ruido puro.
Un modelo de difusión es un tipo de modelo generativo profundo que produce muestras aprendiendo a revertir un proceso gradual de adición de ruido. Durante el entrenamiento, un proceso de difusión directa añade incrementalmente ruido gaussiano a los datos hasta convertirlos en ruido puro. Una red neuronal aprende entonces el proceso inverso, eliminando ruido en cada paso temporal para reconstruir datos coherentes.
El avance llegó con DDPM (Denoising Diffusion Probabilistic Models) en 2020, que demostró una calidad de generación de imágenes competitiva con las GAN. Esto condujo a sistemas a gran escala como Stable Diffusion y DALL-E 2. Comparados con las GAN, los modelos de difusión ofrecen un entrenamiento estable y evitan el colapso de modos.
- Programación de ruido: Controla cuánto ruido se añade en cada paso temporal. Las programaciones lineal, coseno y sigmoide afectan significativamente la calidad de generación
- Generación condicional: Indicaciones de texto o etiquetas de clase guían el proceso de generación. La Guía sin Clasificador (CFG) equilibra fidelidad y diversidad
- Difusión latente: Realiza el proceso de difusión en un espacio latente comprimido producido por un codificador VAE, reduciendo drásticamente el costo computacional. Stable Diffusion popularizó este enfoque
Más allá de la síntesis de imágenes, los modelos de difusión impulsan la superresolución, el inpainting, la generación de video y la creación de activos 3D. La investigación activa se centra en un muestreo más rápido (DDIM, DPM-Solver, modelos de consistencia) y mejor controlabilidad (ControlNet, IP-Adapter).