JA EN

データ拡張

読み: でーたかくちょう

学習データに回転・反転・色変換などの変換を適用して擬似的にデータ量を増やし、モデルの汎化性能を向上させる手法。

データ拡張 (Data Augmentation) は、既存の学習データに対して幾何学的変換や色空間変換などを適用し、擬似的にデータのバリエーションを増やす手法である。深層学習モデルは大量のデータを必要とするが、ラベル付きデータの収集にはコストがかかるため、データ拡張は過学習を抑制し汎化性能を高める実用的な手段として広く利用されている。

画像認識タスクでは、データ拡張なしで高い精度を達成することは困難であり、事実上すべての学習パイプラインに組み込まれている。適切な拡張戦略の選択はモデル性能に大きく影響するため、タスクやデータの特性に応じた設計が求められる。

近年は AutoAugment や TrivialAugment のように、最適な拡張ポリシーを自動的に探索する手法が主流になりつつある。また、生成モデル (GAN や拡散モデル) で合成データを生成し学習データを補完するアプローチも注目されている。テスト時にもデータ拡張を適用して予測を平均化する TTA (Test-Time Augmentation) も精度向上に有効である。

関連用語

関連記事