以前一直觉得图片上面能识别文字是一件特别高大上的事情,发现有了python以及其工具包tesseract。exe,一切都会变得简单。
比如我们要识别以下图片,则可以打印出 “你放弃时它会巨己停在你胄上 你死命追求一个人”等信息
那么我们一起来搭建其环境。
(1) 安装相应的tesseract以及配置其中文语言包的环境。可以自行下载tesseract-ocr3.0的安装包和中文语言包
(2)python安装相应的模块,在命令行当中直接进行安装。
pip install PIL (如果该命令在系统当中不存在,请更换为pip install Pillow)
pip install pytesseract
(3)配置环境
打开python安装的位置
C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\Lib\site-packages\pytesseract\pytesseract.py,对其进行编辑
将该文件当中的tesseract_cmd = 'tesseract'替换为tesseract_cmd = 'D:/pythonImageSee/Tesseract-OCR/tesseract.exe'(第二个为刚才安装的软件的路径。)注意:此处的路径为“/”左斜杠,而非“\”右斜杠,否则运行相应的代码时会系统报找不到文件的错误
(4)运行相应的代码,即可看到识别的效果
from PIL import Image
import pytesseract
#上面都是导包,只需要下面这一行就能实现图片文字识别
text=pytesseract.image_to_string(Image.open('ceshi.png'),lang='chi_sim')
print(text)
(5)哈哈,成功了,运行结果如下,小伙伴感兴趣的可以试一下