Inferencia
El proceso de introducir nuevos datos en un modelo entrenado para obtener predicciones. A diferencia del entrenamiento, la inferencia no actualiza los parámetros del modelo.
La inferencia es el proceso de pasar datos no vistos a través de una red neuronal entrenada para obtener predicciones como etiquetas de clase, cuadros delimitadores o máscaras de segmentación. A diferencia del entrenamiento, la inferencia ejecuta solo la propagación hacia adelante con pesos congelados, lo que la hace computacionalmente más ligera por muestra.
El rendimiento se mide por el equilibrio entre latencia y precisión. La detección de objetos en tiempo real requiere menos de 33ms por fotograma (30 FPS). YOLOv8 logra aproximadamente 1,5ms por imagen en GPU, mientras que MobileNetV3 funciona en aproximadamente 5ms en CPU.
- Inferencia por lotes: Procesar múltiples entradas simultáneamente aprovecha el paralelismo de la GPU, maximizando el rendimiento. Los despliegues en servidor típicamente usan tamaños de lote de 8 a 64
- Inferencia en el borde: Ejecutar modelos en smartphones o dispositivos IoT usando motores como TensorFlow Lite, ONNX Runtime y Core ML que optimizan la ejecución para hardware limitado
- Optimización de inferencia: La cuantización (FP32 a INT8), la poda (eliminación de pesos redundantes) y la destilación de conocimiento (compresión de modelos grandes) mejoran la velocidad manteniendo la precisión
La inferencia en navegador mediante WebAssembly permite el procesamiento de imágenes del lado del cliente sin comunicación con el servidor, beneficiando la privacidad y la latencia. Dado que los costos de inferencia dominan los gastos en la nube, la optimización de modelos es crítica para el despliegue en producción.