JA EN ZH

潜在空间

生成模型将图像等高维数据的本质特征编码到其中的压缩低维表示空间。

潜在空间是一个抽象的低维表示空间,高维数据 (图像、文本、音频) 通过学习到的编码器被压缩到该空间中。一张 512x512 的 RGB 图像包含约 786,000 个维度,但自编码器的瓶颈层可能将其压缩为几百个维度,同时捕获本质结构。

一个关键特性是语义相似的数据点映射到相邻位置。在人脸图像的潜在空间中,微笑程度或年龄等属性对应特定方向,可通过向量运算实现操控。

理解潜在空间是图像生成、风格迁移、语义编辑和异常检测的核心。t-SNE 和 UMAP 常用于将潜在空间可视化为 2D 以进行模型分析。

Related Terms

Related Articles