一、安装pytesseract和PIL
1、pip命令安装
pip install PIL
pip install pytesseract
2、使用pycharm编辑器安装,如下操作步骤。
安装成功:
3.尝试运行,出现报错,如下图,原因:没有安装识别引擎tesseract-ocr
二、安装识别引擎tesseract-ocr
1.安装一个Tesseract-OCR软件。这个软件是由Google维护的开源的OCR软件。
下载链接: https://pan.baidu.com/s/1J0HNoVhX8WexS_5r0k2jDw 密码: ywc3
因为tesseract-ocr默认不支持中文识别。
将下载到的文件:chi_sim.traineddata 放到Tesseract-OCR安装目录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如图:
2,安装完成tesseract-ocr后,需要做一下配置 。
在Python安装目录(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件。
也可以通过pycharm,Ctrl+B 快速打开pytesseract源码文件:
3.尝试运行,出现如下报错:pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')
4.解决方法:将tessdata目录的上级目录所在路径:(默认为tesseract-ocr安装目录)添加至TESSDATA_PREFIX环境变量中,如下图:
注意:配置完环境变量需要重新打开pycharm编辑器(IDE)。
5.测试结果:图片识别成功!
识别率不是很高。