Tesseract编译及使用
尊重他人的劳动转载请标注
资源准备
Vs2010或者更高版本。本教程使用vs2017
Tesseract源码。Git下载,或者直接从我的下载资源下载。
Git主页
地址https://github.com/tesseract-ocr
,现在goggle维护
蓝框是tesseract代码,也就是我们要编译的代码。
红框是我们要识别的语言。根据需求下载。这里我们只讲编译,不需要下载红框的内容。
点击蓝框连接进入tesseract的git源码库。
复制红框git地址https://github.com/tesseract-ocr/tesseract下载源码
我用source tree下载的
然后将分支切换到3.05
如果怕麻烦直接在上面的网页https://github.com/tesseract-ocr/tesseract下拉到下图
点击上图红色箭头连接直接进入分支地址https://github.com/tesseract-ocr/tesseract/tree/3.05。
红框区会看到vs2010,此分支是vs编译分支。
此分支git地址https://github.com/tesseract-ocr/tesseract.git
如上图蓝框。
上面步骤可以完全不看。直接下载vs2010分支git库,即上面说的git地址https://github.com/tesseract-ocr/tesseract.git,也不用切分支。说这么多就是想告诉你,tesseract源码网站怎么查找,即怎么在git切换相应的分支下载。
这是我下载下来的目录
因为我用vs2017。所以我复制红框文件夹并命名vs2017。
.当然你也可以不做上面这一步操作。
打开vs2017或者vs2010文件夹
打开红色框的工程
如果你的vs版本高于2010将会有类似如图提示
点击确定
进入下面界面
点击红框重新生成
编译完后会报错
提示无法找到头文件。
所以我们要配置编译所需要的环境
Tesseract依赖Leptonica图片编辑库
如下图:
所以我们还需下载Leptonica库打开网页https://github.com/tesseract4java/tesseract-vs2013
将代码下载下来
这是我下载的两个工程目录,工程目录可以是任意位置。我这里是为了方便,调整目录。放在了一起
生成Leptonica的dll
添加头文件Leptonica的头文件
打开工程
设置生成模式为上图红色框的选项
然后重新生成工程
将会在下面目录下生成相关dll
到此tesseract依赖的dll生成完毕
设置tesseract所依赖的Leptonica的dll
打开resseract工程(上面说的vs-2017或vs-2010)
左下图操作
Libtesseract304右击---》属性,弹出如下图:
在上图红框位置点击---》点击下图红色小三角----》弹出绿框内容—》点击编辑
经过上面步骤弹出如下窗口:
找到Leptonica的头文件,路径为我们git下载Leptonica的目录下的“liblept/include“
到此Leptonica的头文件已经添加完成。
添加Leptonica工程生成的dll库
一次点击红色框然后—》小三角—》编辑弹出如下窗口
点击上图红框弹出下图
设置Leptonica的dll路径
到此整个生成环境就设置完成
如果Leptonica生成的是Debug版要在asseract工程做如下操作,与Leptonica生成的dll名字相对应
liblept$(LIBLEPT_VERSION)d.lib
libtiff$(LIBTIFF_VERSION)-static-mtdll-debug.lib
到现在脚本会报如下错误
根据下图操作
到此所有修改完成,生成tesseract工程就可以了
尊重他人的劳动转载请标注