画像分類

読み: がぞうぶんるい

入力画像全体を事前に定義されたカテゴリのいずれかに割り当てるコンピュータビジョンの基本タスク。深層学習の発展を牽引した中心的な問題である。

画像分類 (Image Classification) は、入力画像に対して「犬」「猫」「自動車」などの事前定義されたクラスラベルを付与するタスクである。コンピュータビジョンにおける最も基本的な問題であり、2012 年の AlexNet による ImageNet チャレンジでの圧勝が深層学習ブームの起点となった。

現在では ResNet、EfficientNet、Vision Transformer (ViT) などのアーキテクチャが ImageNet で人間を超える精度を達成している。画像分類で学習した特徴表現は、物体検出やセグメンテーションなど下流タスクのバックボーンとしても広く活用される。

単一ラベル分類: 画像に 1 つのクラスを割り当てる最も基本的な形式。softmax 関数で各クラスの確率を出力し、最大確率のクラスを予測とする
マルチラベル分類: 1 枚の画像に複数のラベルを同時に付与する。各クラスに独立した sigmoid を適用し、閾値を超えたクラスをすべて予測する
ゼロショット分類: CLIP のようなモデルを用いて、学習時に見たことのないカテゴリに対しても分類を行う。テキストと画像の共通埋め込み空間を利用する

評価指標にはトップ 1 精度 (正解が最上位予測と一致する割合) とトップ 5 精度 (正解が上位 5 予測に含まれる割合) が標準的に使用される。実応用では混同行列、適合率、再現率、F1 スコアでクラスごとの性能を詳細に分析する。データの不均衡に対しては、重み付き損失関数やオーバーサンプリングで対処する。知識蒸留によりモデルを軽量化し、エッジデバイスへの展開も進んでいる。

画像分類

関連用語

関連記事