- 我使用扫描仪的OCR功能实现一些印刷文字资料的识别,但识别率一直不太理想,请问应该如何做才能提高OCR的识别率?
-
发布时间:2011-02-15 15:50:56
发布时间:2011-02-15 15:50:56
OCR是一种印刷文字识别软件,它只能识别印刷体的原稿。影响OCR识别率的因素很多,最主要是扫描后图像质量的好坏,如果出现黑边框、混杂有图形表格、文字歪斜等都会使OCR识别错误率大增,甚至无法进行。一般OCR要求识别的文稿以黑白模式(Line/art)、300dpi或更高的分辨率扫描。如果扫描时使用的分辨率太低,也会造成文字识别率下降。
要提高OCR的文字识别率可通过以下方法改善:
尽量使用质量较好的原稿,对扫描后的原稿进行润色,使之尽量清晰、干净、端正。
在进行识别之前,先使用自动倾斜校正和自动版面分析命令处理原稿。
如果自动版面分析的结果不理想,可以手工调节文本框到合适的大小。
如果原稿字迹较淡,可以调节扫描仪的“临界值”选项,使扫描的字迹加深以便识别。