拡散モデル

読み: かくさんもでる

データにノイズを段階的に加える拡散過程と、そのノイズを逆方向に除去して画像を生成する逆拡散過程を組み合わせた生成モデルの一種。

拡散モデル (Diffusion Model) は、データ分布からサンプルを生成する深層生成モデルの一手法である。学習時にはデータへガウスノイズを少しずつ加えて完全なノイズに変換する「前方拡散過程」を定義し、推論時にはノイズから元のデータを復元する「逆拡散過程」をニューラルネットワークで近似する。

2020 年に提案された DDPM (Denoising Diffusion Probabilistic Models) が実用的な画像生成品質を達成し、その後 Stable Diffusion や DALL-E 2 などの大規模モデルへと発展した。GAN と比較して学習が安定しやすく、モード崩壊が起きにくい利点がある。

ノイズスケジュール: 各タイムステップで加えるノイズの量を制御するスケジュール。線形、余弦、シグモイドなどの方式があり、生成品質に大きく影響する
条件付き生成: テキストプロンプトやクラスラベルを条件として与えることで、意図した内容の画像を生成できる。Classifier-Free Guidance が広く使われる
潜在拡散モデル: ピクセル空間ではなく VAE のエンコーダで圧縮した潜在空間上で拡散過程を実行し、計算コストを大幅に削減する手法。Stable Diffusion がこの方式を採用している

拡散モデルは画像生成だけでなく、超解像、画像修復 (インペインティング)、動画生成、3D オブジェクト生成など幅広いタスクに応用されている。サンプリング速度の改善 (DDIM、DPM-Solver) や制御性の向上 (ControlNet) が活発に研究されている。

拡散モデル

関連用語

関連記事