OCR (光学字符识别)
将图像或扫描文档中的文字转换为机器可读数字文本的技术,实现文档数字化和自动数据提取。
OCR (光学字符识别) 检测图像中的文字区域并将其转换为机器可读的数字文本。它驱动从将文档扫描为可搜索 PDF、到提取名片信息、再到通过智能手机相机翻译街道标志等应用。
传统 OCR 依赖模板匹配和手工特征,但深度学习极大地提高了手写文字、多语言文档和具有透视畸变的场景文字的识别精度。
- 文字检测:定位图像中的文字区域。EAST、DBNet 和 CRAFT 等模型预测文字区域的边界框或多边形,处理弯曲文字和各种方向
- 文字识别:读取检测区域内的字符序列。CRNN (CNN + RNN + CTC 损失) 和基于 Transformer 的架构是标准方案。多语言识别必须处理多种文字系统
- 端到端 OCR:统一执行检测和识别的模型。PaddleOCR 和 TrOCR 直接从图像输出文本。与大语言模型集成进行文档理解是活跃的前沿方向
实际挑战包括低分辨率、不均匀光照和复杂版面。二值化和倾斜校正等预处理可提高精度。多模态大语言模型在文档理解方面的能力日益增强,模糊了 OCR 与视觉语言理解之间的界限。