Detección de objetos
Tarea de visión por computadora que identifica y localiza múltiples objetos dentro de una imagen prediciendo simultáneamente cuadros delimitadores y etiquetas de clase.
La detección de objetos identifica múltiples objetos en una imagen prediciendo tanto sus ubicaciones espaciales (cuadros delimitadores) como etiquetas de categoría. Mientras la clasificación responde "qué hay en esta imagen", la detección responde "dónde está cada objeto y qué es" - un problema fundamentalmente más complejo con aplicaciones prácticas directas.
El campo abarca conducción autónoma, vigilancia, robótica e imagen médica. Muchas aplicaciones exigen rendimiento en tiempo real, haciendo crítico el compromiso entre precisión y velocidad.
- Detectores de dos etapas: Ejemplificados por Faster R-CNN, primero generan propuestas de región y luego clasifican y refinan cada una. Logran alta precisión pero con mayor coste computacional
- Detectores de una etapa: YOLO y SSD realizan la generación de propuestas y clasificación simultáneamente. Permiten inferencia en tiempo real adecuada para despliegue en dispositivos edge. Las versiones modernas (YOLOv8, YOLOv10) igualan la precisión de dos etapas
- Detectores basados en Transformer: DETR reformula la detección como un problema de predicción de conjuntos usando atención, eliminando la Supresión de No Máximos. RT-DETR logra rendimiento en tiempo real con este paradigma
La métrica estándar es mAP (precisión media promedio) calculada en múltiples umbrales de IoU. COCO (80 categorías, 330.000 imágenes) sirve como benchmark principal. Las tendencias recientes incluyen detección de vocabulario abierto y modelos fundacionales como Grounding DINO que unifican detección con lenguaje.