JA EN ZH

OCR (光学字符识别)

将图像或扫描文档中的文字转换为机器可读数字文本的技术,实现文档数字化和自动数据提取。

OCR (光学字符识别) 检测图像中的文字区域并将其转换为机器可读的数字文本。它驱动从将文档扫描为可搜索 PDF、到提取名片信息、再到通过智能手机相机翻译街道标志等应用。

传统 OCR 依赖模板匹配和手工特征,但深度学习极大地提高了手写文字、多语言文档和具有透视畸变的场景文字的识别精度。

实际挑战包括低分辨率、不均匀光照和复杂版面。二值化和倾斜校正等预处理可提高精度。多模态大语言模型在文档理解方面的能力日益增强,模糊了 OCR 与视觉语言理解之间的界限。

Related Terms

Related Articles