Extracción de texto de imágenes - Guía técnica e implementación de OCR

2026-05-31 · 9 min de lectura

Visión general del OCR - Cómo las máquinas leen texto de imágenes

El OCR (Optical Character Recognition, reconocimiento óptico de caracteres) convierte el texto dentro de imágenes en datos de texto legibles por máquina. Sus aplicaciones van desde la digitalización de documentos escaneados y tarjetas de presentación hasta el reconocimiento de señales en la calle y la conversión de notas manuscritas a texto.

El pipeline de procesamiento OCR:

Preprocesamiento: Eliminación de ruido, binarización, corrección de inclinación y mejora de contraste preparan la imagen de entrada para un reconocimiento preciso
Detección de texto: Localiza dónde existe texto dentro de la imagen, dibujando cuadros delimitadores alrededor de las regiones de texto
Segmentación: Divide las regiones de texto detectadas en líneas y luego en caracteres individuales
Reconocimiento: Identifica cada imagen de carácter mediante coincidencia de patrones o redes neuronales, convirtiéndola en los códigos de caracteres correspondientes
Postprocesamiento: Los modelos de lenguaje y diccionarios corrigen los resultados del reconocimiento usando información contextual

El OCR moderno sigue dos enfoques principales. Los métodos tradicionales reconocen caracteres individuales por separado, siendo Tesseract el representante de este enfoque. Los métodos basados en aprendizaje profundo reconocen líneas de texto completas de una vez usando CRNN (Convolutional Recurrent Neural Network) + CTC (Connectionist Temporal Classification), eliminando la segmentación de caracteres y mejorando drásticamente el manejo de escritura manual y fuentes decorativas.

Tesseract OCR - El motor estándar de código abierto

Tesseract es un motor OCR de código abierto mantenido por Google que soporta más de 100 idiomas. La versión 4.0+ incluye un motor de reconocimiento basado en LSTM, mejorando significativamente la precisión respecto al enfoque anterior de coincidencia de patrones.

Uso básico de Tesseract:

Instalación: brew install tesseract tesseract-lang (macOS) o apt install tesseract-ocr (Ubuntu)
Línea de comandos: tesseract input.png output -l eng --oem 1 --psm 6
OEM (OCR Engine Mode): 0 = Legacy, 1 = LSTM, 2 = Legacy + LSTM, 3 = Por defecto (mejor disponible)
PSM (Page Segmentation Mode): 3 = Segmentación automática, 6 = Bloque de texto único, 7 = Línea única, 13 = Texto sin formato (sin segmentación)

Integración con Python (pytesseract):

import pytesseract; from PIL import Image; text = pytesseract.image_to_string(Image.open("doc.png"), lang="eng", config="--oem 1 --psm 6")

Tesseract alcanza una precisión del 90-95% en escaneos de documentos impresos. Sin embargo, la precisión disminuye significativamente con: resolución inferior a 300 dpi (recomendado: 300-600 dpi), fondos ruidosos o texturizados, fotos de documentos inclinados, texto manuscrito (Tesseract está optimizado para impresión) y diseños de texto vertical. Superar estas limitaciones requiere un preprocesamiento adecuado o cambiar a APIs en la nube y modelos de aprendizaje profundo.

OCR con aprendizaje profundo - Modelos CRNN y Transformer

El OCR de última generación aprovecha el aprendizaje profundo para lograr una precisión superior al reconocimiento carácter por carácter tradicional. La arquitectura CRNN (Convolutional Recurrent Neural Network) y los modelos emergentes basados en Transformer dominan el campo.

Cómo funciona CRNN + CTC:

Capas CNN: Extraen características visuales de las imágenes de entrada. Los backbones VGG o ResNet son comunes. Las imágenes de líneas de texto se redimensionan a altura fija, generando secuencias de características en el ancho
Capas RNN: Procesan las secuencias de características CNN con LSTM bidireccional, incorporando información contextual para la predicción de caracteres. Aprender las relaciones entre caracteres adyacentes permite el reconocimiento correcto de caracteres individualmente ambiguos
Decodificador CTC: Genera las cadenas de caracteres finales a partir de la salida RNN. Aprende automáticamente la alineación incluso cuando las longitudes de entrada y salida difieren, siendo la tecnología central que elimina la segmentación de caracteres

Últimos modelos basados en Transformer:

TrOCR (Microsoft): Arquitectura con codificador Vision Transformer (ViT) + decodificador GPT-2. Los modelos preentrenados logran alta precisión con mínimo ajuste fino
PaddleOCR: Framework OCR de código abierto de Baidu. PP-OCRv4 es ligero pero preciso, soportando más de 80 idiomas con rendimiento móvil en tiempo real
EasyOCR: Biblioteca OCR basada en PyTorch que combina CRAFT (detección de texto) + CRNN (reconocimiento), soportando más de 40 idiomas

Comparación de precisión (documentos impresos en inglés, nivel de carácter): Tesseract 4.x LSTM: 93-96%, PaddleOCR PP-OCRv4: 97-99%, Google Cloud Vision API: 98-99%, Azure AI Vision: 97-99%.

Técnicas de preprocesamiento - Mejora drástica de la precisión del OCR

La precisión del reconocimiento OCR depende en gran medida de la calidad de la imagen de entrada. Un preprocesamiento adecuado puede mejorar las tasas de reconocimiento entre 10 y 20 puntos porcentuales. Aquí presentamos técnicas prácticas de preprocesamiento.

Pasos esenciales de preprocesamiento:

Conversión a escala de grises: Convierte imágenes en color a escala de grises para simplificar el procesamiento. cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
Binarización: Separa claramente el texto (negro) del fondo (blanco). El método de Otsu (cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)) es la base. Usa umbralización adaptativa (cv2.adaptiveThreshold) para fondos irregulares
Eliminación de ruido: El filtro de mediana (cv2.medianBlur(img, 3)) o el filtro gaussiano eliminan el ruido de escaneo. Evita el desenfoque excesivo que daña los bordes de los caracteres
Corrección de inclinación: Detecta el ángulo de inclinación mediante la transformada de Hough o el rectángulo de área mínima, luego corrige con transformación afín. Incluso 1 grado de inclinación impacta significativamente la precisión

Técnicas avanzadas de preprocesamiento:

Normalización de resolución: Redimensiona la entrada al equivalente de 300 dpi. La altura ideal de los caracteres es de 30-50 píxeles
Mejora de contraste: CLAHE (Contrast Limited Adaptive Histogram Equalization) mejora el contraste local para texto desvanecido o áreas sombreadas
Operaciones morfológicas: La dilatación repara caracteres rotos, la erosión separa caracteres que se tocan
Eliminación de fondo: Elimina patrones de fondo del documento (líneas, marcas de agua, texturas) usando filtrado de frecuencia o separación de color

Impacto medido: La precisión de Tesseract mejoró del 78% sin preprocesamiento al 94% con binarización + eliminación de ruido + corrección de inclinación combinadas. Los pipelines de preprocesamiento requieren ajuste por tipo de imagen.

Comparación de servicios OCR en la nube y guía de selección

Los servicios OCR en la nube proporcionan modelos de reconocimiento de alta precisión como servicios gestionados, eliminando la sobrecarga de gestión de infraestructura.

Principales servicios OCR en la nube:

Google Cloud Vision API: Mayor precisión para muchos idiomas (97-99%). Soporta escritura manual. Ofrece modos TEXT_DETECTION y DOCUMENT_TEXT_DETECTION. Precio: .50 por 1000 solicitudes
Amazon Textract: Destaca en el reconocimiento de estructura de tablas y formularios. APIs especializadas para facturas, recibos y documentos de identidad. Precio: bash.0015/página (texto) a bash.015/página (tablas)
Azure AI Vision (antes Computer Vision): La API Read maneja tanto impresión como escritura manual. Más de 50 idiomas soportados. Procesamiento asíncrono para manejo masivo de páginas. Precio: .00 por 1000 transacciones
Azure Document Intelligence: Modelos preconstruidos para facturas, recibos, tarjetas de presentación. Entrenamiento de modelos personalizados disponible

Directrices de selección: documentos generales que necesitan la mayor precisión usan Google Cloud Vision API; extracción de tablas/formularios usa Amazon Textract; procesamiento masivo de páginas usa Azure AI Vision (lote asíncrono); automatización de documentos estructurados usa Azure Document Intelligence; minimización de costos usa Tesseract (gratuito) con pipeline de preprocesamiento.

Un enfoque híbrido procesa primero con Tesseract, recurriendo a APIs en la nube solo para resultados de baja confianza (por debajo de 0.7). Esto logra una reducción de costos del 30-40% comparado con el uso completo de API en la nube con 100K imágenes mensuales.

OCR 関連の技術書は Amazon でも見つかります

Patrones de implementación - Diseño y operación de pipelines OCR

Los sistemas OCR en producción requieren decisiones arquitectónicas cuidadosas y prácticas de mejora continua de la precisión.

Arquitectura recomendada (pipeline OCR serverless):

Capa de entrada: Detecta imágenes subidas a S3 mediante eventos EventBridge/S3, activando funciones Lambda
Capa de preprocesamiento: Lambda ejecuta el preprocesamiento de imágenes (redimensionar, binarizar, corregir inclinación) usando OpenCV Lambda Layer
Capa de reconocimiento: Envía imágenes preprocesadas a Textract o Cloud Vision API. Usa colas SQS para throttling durante el procesamiento masivo
Capa de postprocesamiento: Aplica correcciones basadas en regex, coincidencia con diccionario y validación de formato a los resultados del reconocimiento
Capa de salida: Almacena datos de texto estructurados en DynamoDB y actualiza índices de búsqueda

Técnicas operativas para mejorar la precisión:

Utilización de puntuación de confianza: Registra puntuaciones de confianza por carácter/palabra, enrutando resultados de baja confianza a colas de revisión humana
Bucles de retroalimentación: Acumula correcciones humanas como datos de ajuste fino para modelos personalizados
Diccionarios de dominio: Prepara diccionarios de términos específicos de la industria para corrección en postprocesamiento (terminología médica, términos legales)
Coincidencia de plantillas: Para formularios estructurados (facturas, solicitudes), predefine posiciones de campos y extrae solo regiones relevantes. Mejora la precisión un 5-10% sobre el reconocimiento de página completa

Objetivos de rendimiento: Precisión de caracteres 95%+, precisión de palabras 90%+, monitoreados mensualmente. Cuando la precisión cae por debajo de los umbrales, investiga cambios en la calidad de las imágenes de entrada o nuevos tipos de documentos, ajustando el pipeline de preprocesamiento en consecuencia.

Extracción de texto de imágenes - Guía técnica e implementación de OCR

Visión general del OCR - Cómo las máquinas leen texto de imágenes

Tesseract OCR - El motor estándar de código abierto

OCR con aprendizaje profundo - Modelos CRNN y Transformer

Técnicas de preprocesamiento - Mejora drástica de la precisión del OCR

Comparación de servicios OCR en la nube y guía de selección

Patrones de implementación - Diseño y operación de pipelines OCR

Artículos relacionados

Cómo extraer imágenes de PDF - Guía completa por herramientas

Procesamiento de imágenes de alto rendimiento con WebAssembly - Conversión y filtros impulsados por Wasm

Tecnología de etiquetado automático de imágenes - Detección de objetos, reconocimiento de escenas y generación de subtítulos

Comparación de técnicas de marcadores de posición para imágenes - Guía de implementación de LQIP, BlurHash y SQIP

Comprendiendo el modelo CLIP y sus aplicaciones en búsqueda de imágenes

Visión general de la detección de objetos - Comparación de arquitectura y rendimiento de YOLO, SSD y Faster R-CNN

Términos relacionados