潜在空间
生成模型将图像等高维数据的本质特征编码到其中的压缩低维表示空间。
潜在空间是一个抽象的低维表示空间,高维数据 (图像、文本、音频) 通过学习到的编码器被压缩到该空间中。一张 512x512 的 RGB 图像包含约 786,000 个维度,但自编码器的瓶颈层可能将其压缩为几百个维度,同时捕获本质结构。
一个关键特性是语义相似的数据点映射到相邻位置。在人脸图像的潜在空间中,微笑程度或年龄等属性对应特定方向,可通过向量运算实现操控。
- VAE 潜在空间:变分自编码器将潜在分布正则化为近似标准正态分布,产生平滑的空间,其中任何采样点都能解码为合理的输出
- GAN 潜在空间:GAN 生成器将噪声向量映射为逼真图像。StyleGAN 的
W和W+空间提供更优的解耦性和可编辑性 - 潜在扩散:Stable Diffusion 在 VAE 的潜在空间而非像素空间中执行扩散过程,将计算成本降低数个数量级同时保持质量
理解潜在空间是图像生成、风格迁移、语义编辑和异常检测的核心。t-SNE 和 UMAP 常用于将潜在空间可视化为 2D 以进行模型分析。