Java使用Tess4J进行图片文字识别
tess4j中文材料准备
tess4j下载: https://sourceforge.net/projects/tess4j/
中文解读包: https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata
tess4j基本使用方法
1.引入jar包
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.3.1</version>
</dependency>
2.编写java类测试
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class Demo {
public static void main(String[] args) {
ITesseract instance = new Tesseract();
instance.setDatapath("D:\\Users\\Tess4J\\tessdata");
instance.setLanguage("chi_sim");
File file = new File("D:\\work\\timgs.png");
try {
String result = instance.doOCR(file);
System.out.printf(result);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
3.执行结果
4.总结:执行结果基本上和图片类似,为了更加精准,可以训练。