潜在空間
読み: せんざいくうかん
高次元のデータを低次元に圧縮した表現空間。オートエンコーダや GAN などの生成モデルが、データの本質的な特徴を捉えた内部表現として利用する。
潜在空間 (Latent Space) とは、高次元の観測データ (画像、テキストなど) を低次元のベクトルに圧縮した抽象的な表現空間である。例えば 512x512 ピクセルの画像は約 78 万次元のデータだが、オートエンコーダのボトルネック層では数百〜数千次元の潜在ベクトルに圧縮される。この潜在ベクトルがデータの本質的な構造を捉えている。
潜在空間の重要な性質は、意味的に近いデータが空間上でも近くに配置される点にある。例えば顔画像の潜在空間では、笑顔の度合いや年齢といった属性が特定の方向に対応し、ベクトル演算で属性を操作できる。
- VAE の潜在空間: 変分オートエンコーダ (VAE) は潜在変数が正規分布に従うよう正則化する。これにより潜在空間が滑らかになり、任意の点からデコードしても自然なデータが得られる
- GAN の潜在空間: GAN のジェネレータはランダムノイズ (潜在ベクトル) を入力として画像を生成する。StyleGAN では
W空間やW+空間が高い編集性を持つことが知られている - 潜在拡散モデル: Stable Diffusion は画像をピクセル空間ではなく VAE の潜在空間上で拡散・逆拡散することで、計算量を大幅に削減しつつ高品質な生成を実現する
潜在空間の構造を理解し操作する技術は、画像生成・編集・スタイル変換・異常検知など多くの応用で中核的な役割を果たす。次元削減手法 (t-SNE、UMAP) で潜在空間を 2D に可視化し、モデルの学習状況やデータのクラスタ構造を分析することも一般的なワークフローである。