最近在研究tesseract实现文字识别,废话不多说,研究新技术,首先要百度。百度一下相关的文章还不少,基本都是这样的

java中手写签名生成图片是怎么实现的 java手写文字识别_jar

java中手写签名生成图片是怎么实现的 java手写文字识别_百度_02

 代码很简单,也没有什么注意事项,然后我建了测试项目,抄了代码,然后......

java中手写签名生成图片是怎么实现的 java手写文字识别_百度_03

 运行结果是这样的

java中手写签名生成图片是怎么实现的 java手写文字识别_java中手写签名生成图片是怎么实现的_04

还有这样的

java中手写签名生成图片是怎么实现的 java手写文字识别_vc++_05

 没事,意料之中,写了这么久代码,早有这种觉悟。百度解决方法吧,有说是少了什么dll的,把dll复制到系统目录下,不行。有说是没安装vc++,好吧,那安装,结果意料之中,还是不行,继续百度,说是vc++版本不对,要2019版,不能2015版,可是

java中手写签名生成图片是怎么实现的 java手写文字识别_java_06

人家一个安装包就是2015-2019,这个就是最新版,没有单独2019版 。好吧,那我就换旧版本的tess4j的jar包和旧版本的vc++,然后,意外发生了,成功了。

总结一下,不同版本的tess4j要对应不同版本的vc++,但是最新版的tess4j和最新版的vc++不匹配。

以上就是我趟过的坑,我把它写出来,希望刚学习Tesseract的朋友少走点弯路,也让我以后如果换个环境开发的时候不会重蹈覆辙。

下面就是我测试通过的案例,windows上是不需要安装Tesseract-OCR的。

开发环境:win10 + vc++2103(下载) + jdk8 + myeclipse2017ci

java中手写签名生成图片是怎么实现的 java手写文字识别_java_07

package com.test;

import java.io.File;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Main {

	public static void main(String[] args) {
		File imageFile = new File("aa.png");
		ITesseract tess = new Tesseract();
		// 设置训练库路径,我这里把训练库放在项目目录下
		tess.setDatapath("./tessdata");
		try {
			String result = tess.doOCR(imageFile);
			System.out.println(result);
		} catch (TesseractException e) {
			e.printStackTrace();
		}
	}

}

 如果只是英文数字识别,训练库在tess4j-3.0.0.jar里面就有,解压tess4j-3.0.0.jar,把tessdata复制到项目目录下即可,如果要识别中文,需要另外下载中文训练库(下载地址),下载下来是一个文件chi_sim.traineddata,把这个文件放到tessdata下,代码加一句选择语言库就可以了。

package com.test;

import java.io.File;

import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

public class Main {

	public static void main(String[] args) {
		File imageFile = new File("aa.png");
		ITesseract tess = new Tesseract();
		// 设置训练库路径,我这里把训练库放在项目目录下
		tess.setDatapath("./tessdata");
		// 选择语言库(chi_sim:简体中文; eng:英文(默认))
		tess.setLanguage("chi_sim");
		try {
			String result = tess.doOCR(imageFile);
			System.out.println(result);
		} catch (TesseractException e) {
			e.printStackTrace();
		}
	}

}

linux上运行

要在linux上使用tess4j需要安装Tesseract,没什么坑,参考这篇文章就可以了https://www.jianshu.com/p/134a09c5af9e

然后把项目打包成可运行的jar

java中手写签名生成图片是怎么实现的 java手写文字识别_java中手写签名生成图片是怎么实现的_08

java中手写签名生成图片是怎么实现的 java手写文字识别_java中手写签名生成图片是怎么实现的_09

 

java中手写签名生成图片是怎么实现的 java手写文字识别_百度_10

 

在linux上新建目录/home/jar,把打好的包和训练库上传

java中手写签名生成图片是怎么实现的 java手写文字识别_java中手写签名生成图片是怎么实现的_11

 

运行

java中手写签名生成图片是怎么实现的 java手写文字识别_jar_12

 

java中手写签名生成图片是怎么实现的 java手写文字识别_jar_13

aa.png