JA EN

拡散モデル

読み: かくさんもでる

データにノイズを段階的に加える拡散過程と、そのノイズを逆方向に除去して画像を生成する逆拡散過程を組み合わせた生成モデルの一種。

拡散モデル (Diffusion Model) は、データ分布からサンプルを生成する深層生成モデルの一手法である。学習時にはデータへガウスノイズを少しずつ加えて完全なノイズに変換する「前方拡散過程」を定義し、推論時にはノイズから元のデータを復元する「逆拡散過程」をニューラルネットワークで近似する。

2020 年に提案された DDPM (Denoising Diffusion Probabilistic Models) が実用的な画像生成品質を達成し、その後 Stable Diffusion や DALL-E 2 などの大規模モデルへと発展した。GAN と比較して学習が安定しやすく、モード崩壊が起きにくい利点がある。

拡散モデルは画像生成だけでなく、超解像、画像修復 (インペインティング)、動画生成、3D オブジェクト生成など幅広いタスクに応用されている。サンプリング速度の改善 (DDIM、DPM-Solver) や制御性の向上 (ControlNet) が活発に研究されている。

関連用語

関連記事