Java使用tss4j行图片文字识别(中文)

Java使用Tess4J进行图片文字识别

tess4j中文材料准备

tess4j下载: https://sourceforge.net/projects/tess4j/
中文解读包: https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

tess4j基本使用方法

1.引入jar包

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.3.1</version>
</dependency>

2.编写java类测试

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import java.io.File;

public class Demo {
    public static void main(String[] args) {
        ITesseract instance = new Tesseract();
        instance.setDatapath("D:\\Users\\Tess4J\\tessdata");
        instance.setLanguage("chi_sim");

        File file = new File("D:\\work\\timgs.png");
        try {
            String result = instance.doOCR(file);
            System.out.printf(result);
        } catch (TesseractException e) {
            e.printStackTrace();
        }
    }
}

3.执行结果
在这里插入图片描述
在这里插入图片描述
4.总结:执行结果基本上和图片类似,为了更加精准,可以训练。

猜你喜欢

转载自blog.csdn.net/weixin_43935907/article/details/88561218