データ拡張
読み: でーたかくちょう
学習データに回転・反転・色変換などの変換を適用して擬似的にデータ量を増やし、モデルの汎化性能を向上させる手法。
データ拡張 (Data Augmentation) は、既存の学習データに対して幾何学的変換や色空間変換などを適用し、擬似的にデータのバリエーションを増やす手法である。深層学習モデルは大量のデータを必要とするが、ラベル付きデータの収集にはコストがかかるため、データ拡張は過学習を抑制し汎化性能を高める実用的な手段として広く利用されている。
画像認識タスクでは、データ拡張なしで高い精度を達成することは困難であり、事実上すべての学習パイプラインに組み込まれている。適切な拡張戦略の選択はモデル性能に大きく影響するため、タスクやデータの特性に応じた設計が求められる。
- 幾何学的変換: 水平反転、ランダムクロップ、回転、スケーリング、アフィン変換など。画像の空間的な多様性を増やし、位置や向きに対する不変性を学習させる
- 色空間変換: 明度・コントラスト・彩度のランダム変動、カラージッター、グレースケール変換など。照明条件の変化に対するロバスト性を向上させる
- 高度な手法: Mixup (2 枚の画像を線形補間)、CutMix (パッチを切り貼り)、RandAugment (変換の種類と強度を自動探索) など。単純な変換の組み合わせを超えた正則化効果を持つ
近年は AutoAugment や TrivialAugment のように、最適な拡張ポリシーを自動的に探索する手法が主流になりつつある。また、生成モデル (GAN や拡散モデル) で合成データを生成し学習データを補完するアプローチも注目されている。テスト時にもデータ拡張を適用して予測を平均化する TTA (Test-Time Augmentation) も精度向上に有効である。