centos7.4下安装部署tess4j+tesseract4.0.0alpha

环境:centos7.4+jdk1.8+tomcat7.0+leptonica-1.76.0+tesseract4.0.0alpha+tess4j4.0.2
一、安装leptonica
1、将leptonica-1.76.0.tar.gz拷贝至服务器任一目录,以/home为例,依次执行如下命令:
tar –zxvf leptonica-1.76.0.tar.gz
cd leptonica-1.76.0
./configure
Make
Make install
二、安装tesseract
1、安装必备包:
yum -y update
yum -y install libstdc++ autoconf automake libtool autoconf-archive pkg- config gcc gcc-c++ make libjpeg-devel libpng-devel libtiff-devel zlib-devel
2、安装tesseract
tar -zxvf 4.0.0-beta.1.tar.gz
cd tesseract-4.0.0-beta.1/
chmod +x autogen.sh
./autogen.sh
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig LIBLEPT_HEADERSDIR=/usr/local/include ./configure --with-extra-includes=/usr/local/include --with-extra-libraries=/usr/local/lib
Make
Make install
3、设置环境变量
执行命令: vi /etc/profile
添加环境变量 TESSDATA_PREFIX, 值为tessdata目录,/usr/local/share/tessdata
4、拷贝训练文件至tessdata目录下
将eng.traineddata, chi_sim.traineddata, bod.traineddata拷贝至/usr/local/share/tessdata/下面
三、验证
1、执行tesseract -v,显示如下:

2、测试藏文图片识别:
准备一张带藏文的图片tibet.png上传至home目录下,执行命令:
tesseract tibet.png result -l bod
显示如下:

然后执行 cat result2.txt,显示如下:

至此,说明tesseract的安装已经成功。

四、踩坑记录
1、报错:input not set
解决方案:检查图片路径是否正确,很大可能是图片不存在或者路径不对
2、

解决方案:这个报错是因为linux系统缺少依赖的库,执行二步下的第一项就可以。

3、

解决方案:tesser4j版本与tesseract版本不匹配,通过两天时间网上查找各种资料,发现使用Tesseract 4.0.0-beta.3,运行时就会报fatal error,程序自动停止,看报错来判断,大概是tesseract中某些函数签名变化,Tess4j中签名与之不匹配。最新版的tess4j,仅对Tesseract.4.0.0-beta.1进行过匹配,因此产生了上面的版本组合,改成Tesseract.4.0.0-beta.1之后运行正常

六、本人使用的软件安装包,有需要的可以发邮箱

猜你喜欢

转载自www.cnblogs.com/zhangbei/p/9950789.html