最近在研究tesseract实现文字识别,废话不多说,研究新技术,首先要百度。百度一下相关的文章还不少,基本都是这样的
代码很简单,也没有什么注意事项,然后我建了测试项目,抄了代码,然后......
运行结果是这样的
还有这样的
没事,意料之中,写了这么久代码,早有这种觉悟。百度解决方法吧,有说是少了什么dll的,把dll复制到系统目录下,不行。有说是没安装vc++,好吧,那安装,结果意料之中,还是不行,继续百度,说是vc++版本不对,要2019版,不能2015版,可是
人家一个安装包就是2015-2019,这个就是最新版,没有单独2019版 。好吧,那我就换旧版本的tess4j的jar包和旧版本的vc++,然后,意外发生了,成功了。
总结一下,不同版本的tess4j要对应不同版本的vc++,但是最新版的tess4j和最新版的vc++不匹配。
以上就是我趟过的坑,我把它写出来,希望刚学习Tesseract的朋友少走点弯路,也让我以后如果换个环境开发的时候不会重蹈覆辙。
下面就是我测试通过的案例,windows上是不需要安装Tesseract-OCR的。
开发环境:win10 + vc++2103(下载) + jdk8 + myeclipse2017ci
package com.test;
import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class Main {
public static void main(String[] args) {
File imageFile = new File("aa.png");
ITesseract tess = new Tesseract();
// 设置训练库路径,我这里把训练库放在项目目录下
tess.setDatapath("./tessdata");
try {
String result = tess.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
如果只是英文数字识别,训练库在tess4j-3.0.0.jar里面就有,解压tess4j-3.0.0.jar,把tessdata复制到项目目录下即可,如果要识别中文,需要另外下载中文训练库(下载地址),下载下来是一个文件chi_sim.traineddata,把这个文件放到tessdata下,代码加一句选择语言库就可以了。
package com.test;
import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
public class Main {
public static void main(String[] args) {
File imageFile = new File("aa.png");
ITesseract tess = new Tesseract();
// 设置训练库路径,我这里把训练库放在项目目录下
tess.setDatapath("./tessdata");
// 选择语言库(chi_sim:简体中文; eng:英文(默认))
tess.setLanguage("chi_sim");
try {
String result = tess.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
e.printStackTrace();
}
}
}
linux上运行
要在linux上使用tess4j需要安装Tesseract,没什么坑,参考这篇文章就可以了https://www.jianshu.com/p/134a09c5af9e
然后把项目打包成可运行的jar
在linux上新建目录/home/jar,把打好的包和训练库上传
运行
aa.png