EN JA ZH ES

Clasificación de imágenes

La tarea fundamental de visión por computadora que asigna una etiqueta de categoría predefinida a una imagen de entrada completa, impulsó la revolución del aprendizaje profundo y sustenta muchas tareas de visión posteriores.

La clasificación de imágenes asigna una o más etiquetas de categoría predefinidas a una imagen de entrada. Es el problema más fundamental de la visión por computadora, y la victoria decisiva de AlexNet en el desafío ImageNet de 2012 encendió la era moderna del aprendizaje profundo.

Hoy en día, arquitecturas como ResNet, EfficientNet y Vision Transformer (ViT) logran una precisión sobrehumana en ImageNet. Las representaciones de características aprendidas mediante clasificación sirven como potentes backbones para tareas posteriores como detección y segmentación.

Las métricas estándar incluyen precisión top-1 y top-5. En producción, matrices de confusión, precisión, recall y puntuaciones F1 proporcionan análisis por clase. El desbalance de clases se aborda mediante funciones de pérdida ponderadas o focal loss. La destilación de conocimiento comprime modelos grandes para un despliegue eficiente en dispositivos edge.

Términos relacionados

Artículos relacionados