OCR (光学字符识别)

将图像或扫描文档中的文字转换为机器可读数字文本的技术，实现文档数字化和自动数据提取。

OCR (光学字符识别) 检测图像中的文字区域并将其转换为机器可读的数字文本。它驱动从将文档扫描为可搜索 PDF、到提取名片信息、再到通过智能手机相机翻译街道标志等应用。

传统 OCR 依赖模板匹配和手工特征，但深度学习极大地提高了手写文字、多语言文档和具有透视畸变的场景文字的识别精度。

文字检测：定位图像中的文字区域。EAST、DBNet 和 CRAFT 等模型预测文字区域的边界框或多边形，处理弯曲文字和各种方向
文字识别：读取检测区域内的字符序列。CRNN (CNN + RNN + CTC 损失) 和基于 Transformer 的架构是标准方案。多语言识别必须处理多种文字系统
端到端 OCR：统一执行检测和识别的模型。PaddleOCR 和 TrOCR 直接从图像输出文本。与大语言模型集成进行文档理解是活跃的前沿方向

实际挑战包括低分辨率、不均匀光照和复杂版面。二值化和倾斜校正等预处理可提高精度。多模态大语言模型在文档理解方面的能力日益增强，模糊了 OCR 与视觉语言理解之间的界限。

相关术语