OCR (Reconocimiento óptico de caracteres)
Tecnología que convierte texto dentro de imágenes o documentos escaneados en texto digital legible por máquinas, permitiendo la digitalización de documentos y la extracción automatizada de datos.
El OCR (Reconocimiento Óptico de Caracteres) detecta regiones de texto en imágenes y las convierte en texto digital legible por máquinas. Impulsa aplicaciones desde escanear documentos en PDF con búsqueda, hasta extraer información de tarjetas de visita, hasta traducir carteles callejeros mediante cámaras de smartphones.
El OCR tradicional se basaba en coincidencia de plantillas y características diseñadas manualmente, pero el aprendizaje profundo ha mejorado drásticamente la precisión para texto manuscrito, documentos multilingües y texto de escena con distorsión de perspectiva.
- Detección de texto: Localiza regiones de texto dentro de una imagen. Modelos como EAST, DBNet y CRAFT predicen cuadros delimitadores o polígonos alrededor de áreas de texto, manejando texto curvo y diversas orientaciones
- Reconocimiento de texto: Lee secuencias de caracteres dentro de las regiones detectadas. CRNN (CNN + RNN + pérdida CTC) y arquitecturas basadas en Transformer son estándar. El reconocimiento multilingüe debe manejar diversos sistemas de escritura
- OCR de extremo a extremo: Modelos unificados que realizan detección y reconocimiento conjuntamente. PaddleOCR y TrOCR producen texto directamente desde imágenes. La integración con modelos de lenguaje grandes para comprensión de documentos es una frontera activa
Los desafíos prácticos incluyen baja resolución, iluminación desigual y diseños complejos. El preprocesamiento como binarización y corrección de inclinación mejora la precisión. Los LLM multimodales son cada vez más capaces en comprensión de documentos, difuminando la frontera entre OCR y comprensión visual del lenguaje.