JA EN

画像分類

読み: がぞうぶんるい

入力画像全体を事前に定義されたカテゴリのいずれかに割り当てるコンピュータビジョンの基本タスク。深層学習の発展を牽引した中心的な問題である。

画像分類 (Image Classification) は、入力画像に対して「犬」「猫」「自動車」などの事前定義されたクラスラベルを付与するタスクである。コンピュータビジョンにおける最も基本的な問題であり、2012 年の AlexNet による ImageNet チャレンジでの圧勝が深層学習ブームの起点となった。

現在では ResNet、EfficientNet、Vision Transformer (ViT) などのアーキテクチャが ImageNet で人間を超える精度を達成している。画像分類で学習した特徴表現は、物体検出やセグメンテーションなど下流タスクのバックボーンとしても広く活用される。

評価指標にはトップ 1 精度 (正解が最上位予測と一致する割合) とトップ 5 精度 (正解が上位 5 予測に含まれる割合) が標準的に使用される。実応用では混同行列、適合率、再現率、F1 スコアでクラスごとの性能を詳細に分析する。データの不均衡に対しては、重み付き損失関数やオーバーサンプリングで対処する。知識蒸留によりモデルを軽量化し、エッジデバイスへの展開も進んでいる。

関連用語

関連記事