Tesseract-OCR试水 - 代码天地

Tesseract-OCR试水

其他 2020-03-01 11:50:02 阅读次数: 0

安装

github地址：https://github.com/tesseract-ocr/tesseract
由于测试是在win7环境下进行，我们选用Mannheim University包装过的版本
github地址：https://github.com/UB-Mannheim/tesseract/wiki
默认语言只支持英语，由于我们识别的是中文，我们需要下载中文模型包
github地址：https://github.com/tesseract-ocr/tessdata
找到并下载chi_sim.traineddata

运行

例如，要识别的图片为d:/test.png
打开命令行，切换到tesseract-ocr根目录，运行
tesseract d:/test.png test -l chi_sim+eng
生成的test.txt即为识别结果

测试

测试1：手机拍摄带角度图片
在这里插入图片描述

测试2：手机拍摄带阴影图片

测试3：PDF转换的PNG图片，中文包含古文

测试4：PDF转换的PNG图片，英文与中文

结论

测试名称	总字数	错误数	正确率
测试1	184	16	91.3%
测试2	184	108	41.3%
测试3	935	71	92.4%
测试4	407	12	97.1%

1.Tesseract-OCR内置的预处理模块对于旋转、阴影并不能很好处理，特别是阴影
2.Tesseract-OCR对于古文识别率较低

发布了2 篇原创文章 · 获赞 2 · 访问量 351

私信关注

猜你喜欢

转载自blog.csdn.net/fatesunlove/article/details/104552659

Tesseract-OCR试水

Tesseract-OCR的使用

初识tesseract-ocr

Tesseract-OCR 入门

安装tesseract-ocr

tesseract-ocr训练

tesseract-ocr

Tesseract-OCR安装

python Tesseract-OCR

[tesseract-ocr]

Tesseract-OCR 4.1

Tesseract-OCR的安装

Tesseract-OCR引擎入门

Solr: Install tesseract-ocr

Tesseract-OCR 识别中文

linux 安装Tesseract-OCR

Tesseract-OCR 的安装与使用

macbook 安装tesseract－ocr

Tesseract-ocr 安装与使用

Tesseract-OCR 入门使用

tesseract-ocr的安装及使用

Tesseract-OCR 字库训练

Tesseract-OCR引擎的安装

Tesseract-OCR -01-Tesseract 介绍

图片文字OCR识别-tesseract-ocr

Tesseract-ocr开发经验总结

linux 安装Tesseract-OCR java运行

使用jTessBoxEditorFX训练Tesseract-OCR教程

Tesseract-OCR 训练教程（一）

Windows下Tesseract-OCR的安装

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)