Clasificación de imágenes

La tarea fundamental de visión por computadora que asigna una etiqueta de categoría predefinida a una imagen de entrada completa, impulsó la revolución del aprendizaje profundo y sustenta muchas tareas de visión posteriores.

La clasificación de imágenes asigna una o más etiquetas de categoría predefinidas a una imagen de entrada. Es el problema más fundamental de la visión por computadora, y la victoria decisiva de AlexNet en el desafío ImageNet de 2012 encendió la era moderna del aprendizaje profundo.

Hoy en día, arquitecturas como ResNet, EfficientNet y Vision Transformer (ViT) logran una precisión sobrehumana en ImageNet. Las representaciones de características aprendidas mediante clasificación sirven como potentes backbones para tareas posteriores como detección y segmentación.

Clasificación de etiqueta única: Asigna exactamente una clase por imagen. Una función softmax produce una distribución de probabilidad, y la clase con mayor probabilidad se convierte en la predicción
Clasificación multietiqueta: Asigna múltiples etiquetas simultáneamente. Activaciones sigmoid independientes por clase con un umbral de confianza determinan las predicciones
Clasificación zero-shot: Modelos como CLIP clasifican imágenes en categorías nunca vistas durante el entrenamiento aprovechando un espacio de embedding compartido texto-imagen, permitiendo el reconocimiento de vocabulario abierto

Las métricas estándar incluyen precisión top-1 y top-5. En producción, matrices de confusión, precisión, recall y puntuaciones F1 proporcionan análisis por clase. El desbalance de clases se aborda mediante funciones de pérdida ponderadas o focal loss. La destilación de conocimiento comprime modelos grandes para un despliegue eficiente en dispositivos edge.

Clasificación de imágenes

Términos relacionados

Artículos relacionados