tesseract-OCR 注意事项

一:设置白名单:让tesseract-OCR只识别指定内容


有时我们需要用tesseract-ocr只识别指定类型的数据,如:仅识别英文字母或数字。此时可设置白名单,让tesseract-ocr只输出我们需要的结果。
1.打开tesseract-ocr安装路径下的tessdata/configs/digits文件,可以看到里面有一个tessedit_char_whitelist,将其设置成我们需要得到的识别结果。
如:tessedit_char_whitelist ABCD
2.在调用命令时,需要加上我们设置的文件名:tesseract xxx.png outfilename -psm 6 digits
注:
tesseract提供了OCR引擎模式。有如下四种
0 =仅限原始Tesseract
1 =只有神经网络LSTM
2 =Tesseract + LSTM
3 =基于可用的默认值
目前LSTM是无法支持白名单的

我们需要选择第0种模式,指令如下:

tesseract --oem 0 1.png outfileName digits
注意:使用第0种模式会降低识别准确率
 

二。下载地址:

https://digi.bib.uni-mannheim.de/tesseract/

发布了64 篇原创文章 · 获赞 235 · 访问量 169万+

猜你喜欢

转载自blog.csdn.net/javastart/article/details/104086560