EN JA ZH ES

OCR (Reconocimiento óptico de caracteres)

Tecnología que convierte texto dentro de imágenes o documentos escaneados en texto digital legible por máquinas, permitiendo la digitalización de documentos y la extracción automatizada de datos.

El OCR (Reconocimiento Óptico de Caracteres) detecta regiones de texto en imágenes y las convierte en texto digital legible por máquinas. Impulsa aplicaciones desde escanear documentos en PDF con búsqueda, hasta extraer información de tarjetas de visita, hasta traducir carteles callejeros mediante cámaras de smartphones.

El OCR tradicional se basaba en coincidencia de plantillas y características diseñadas manualmente, pero el aprendizaje profundo ha mejorado drásticamente la precisión para texto manuscrito, documentos multilingües y texto de escena con distorsión de perspectiva.

Los desafíos prácticos incluyen baja resolución, iluminación desigual y diseños complejos. El preprocesamiento como binarización y corrección de inclinación mejora la precisión. Los LLM multimodales son cada vez más capaces en comprensión de documentos, difuminando la frontera entre OCR y comprensión visual del lenguaje.

Términos relacionados

Artículos relacionados