物体検出

読み: ぶったいけんしゅつ

画像内に存在する物体の位置 (バウンディングボックス) とカテゴリを同時に推定するコンピュータビジョンのタスク。

物体検出 (Object Detection) は、画像中に含まれる複数の物体それぞれについて、その位置を矩形 (バウンディングボックス) で囲み、同時にカテゴリ (クラス) を分類するタスクである。画像分類が「画像全体に何が写っているか」を判定するのに対し、物体検出は「どこに何があるか」を特定する点で、より実用的かつ複雑な問題となる。

自動運転、監視カメラ、ロボティクス、医療画像診断、小売業の在庫管理など、産業応用が極めて広い分野である。リアルタイム性が求められる場面も多く、精度と速度のトレードオフが重要な設計判断となる。

2 段階検出器: Faster R-CNN に代表される手法。まず物体候補領域 (Region Proposal) を生成し、次に各候補を分類・位置補正する。精度は高いが処理速度に劣る
1 段階検出器: YOLO や SSD のように、候補領域の生成と分類を同時に行う手法。リアルタイム処理が可能で、エッジデバイスへの展開に適している。YOLOv8 以降は精度面でも 2 段階手法に匹敵する
Transformer ベース: DETR はアテンション機構で物体検出を集合予測問題として定式化し、NMS (非最大値抑制) を不要にした。RT-DETR はリアルタイム性も実現している

評価指標には mAP (mean Average Precision) が標準的に使用され、IoU (Intersection over Union) 閾値を変えた複数の条件で精度を測定する。COCO データセット (80 カテゴリ、33 万枚) がベンチマークとして広く利用されている。

物体検出

関連用語

関連記事