tesseract-OCR 注意事项

一：设置白名单:让tesseract-OCR只识别指定内容

有时我们需要用tesseract-ocr只识别指定类型的数据,如:仅识别英文字母或数字。此时可设置白名单，让tesseract-ocr只输出我们需要的结果。
1.打开tesseract-ocr安装路径下的tessdata/configs/digits文件，可以看到里面有一个tessedit_char_whitelist，将其设置成我们需要得到的识别结果。
如：tessedit_char_whitelist ABCD
2.在调用命令时，需要加上我们设置的文件名：tesseract xxx.png outfilename -psm 6 digits
注：
tesseract提供了OCR引擎模式。有如下四种
0 =仅限原始Tesseract
1 =只有神经网络LSTM
2 =Tesseract + LSTM
3 =基于可用的默认值
目前LSTM是无法支持白名单的

我们需要选择第0种模式，指令如下：

tesseract --oem 0 1.png outfileName digits
注意:使用第0种模式会降低识别准确率

二。下载地址：

https://digi.bib.uni-mannheim.de/tesseract/

javastart

发布了64 篇原创文章 · 获赞 235 · 访问量 169万+

他的留言板关注

tesseract-OCR 注意事项

一：设置白名单:让tesseract-OCR只识别指定内容

二。下载地址：

猜你喜欢