OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;

现在有很多软件都支持这个功能,比如钉钉就支持扫描图片后直接转成文字。

现在有了Java包装的API了,那就是Tess4J (https://github.com/nguyenq/tess4j )

Tesseract是一个流行的OCR开源项目。通过Tess4J,我们可以访问Java中的Tesseract API。加载本机库和下载Tesseracts LSTM数据需要进行一些设置。之后在Java中很容易执行OCR。如果您对已识别的文本不满意,那么最好看看Tesseract文档的“提高输出质量”部分(https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html )。

 

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.3</version>
</dependency>