扩散模型
一类通过学习逆向逐步加噪过程来生成数据的生成模型,从纯噪声出发通过迭代去噪生成样本。
扩散模型是一种深度生成模型,通过学习逆转逐步加噪过程来生成样本。训练时,前向扩散过程逐步向数据添加高斯噪声直至变为纯噪声。然后神经网络学习逆过程,在每个时间步去除噪声以重建连贯的数据。
突破性进展来自 2020 年的 DDPM(去噪扩散概率模型),其图像生成质量可与 GAN 媲美。这催生了 Stable Diffusion 和 DALL-E 2 等大规模系统。与 GAN 相比,扩散模型训练更稳定且避免了模式崩溃。
- 噪声调度:控制每个时间步添加多少噪声。线性、余弦和 sigmoid 调度对生成质量有显著影响
- 条件生成:文本提示或类别标签引导生成过程。无分类器引导 (CFG) 平衡保真度和多样性
- 潜在扩散:在 VAE 编码器产生的压缩潜在空间中执行扩散过程,大幅降低计算成本。Stable Diffusion 推广了这一方法
除图像合成外,扩散模型还驱动超分辨率、图像修复、视频生成和 3D 资产创建。当前研究重点是更快的采样(DDIM、DPM-Solver、一致性模型)和更好的可控性(ControlNet、IP-Adapter)。