目标检测

通过同时预测边界框和类别标签来识别和定位图像中多个目标的计算机视觉任务。

目标检测通过预测空间位置 (边界框) 和类别标签来识别图像中的多个目标。分类回答「图像中有什么」，而检测回答「每个目标在哪里以及是什么」- 这是一个更复杂的问题，具有直接的实际应用。

该领域涵盖自动驾驶、监控、机器人和医学影像。许多应用要求实时性能，使精度-速度权衡成为关键。

两阶段检测器：以 Faster R-CNN 为代表，先生成区域提议再对每个提议进行分类和精修。精度高但计算成本较大
单阶段检测器：YOLO 和 SSD 同时执行提议生成和分类。支持实时推理，适合边缘部署。现代版本 (YOLOv8、YOLOv10) 已达到两阶段精度
基于 Transformer 的检测器：DETR 使用注意力机制将检测重新表述为集合预测问题，消除了非极大值抑制。RT-DETR 在此范式下实现了实时性能

标准评估指标是在多个 IoU 阈值上计算的 mAP (平均精度均值)。COCO (80 个类别，33 万张图像) 是主要基准。近期趋势包括开放词汇检测和 Grounding DINO 等将检测与语言统一的基础模型。

相关术语