OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;
现在有很多软件都支持这个功能,比如钉钉就支持扫描图片后直接转成文字。
现在有了Java包装的API了,那就是Tess4J (https://github.com/nguyenq/tess4j )
Tesseract是一个流行的OCR开源项目。通过Tess4J,我们可以访问Java中的Tesseract API。加载本机库和下载Tesseracts LSTM数据需要进行一些设置。之后在Java中很容易执行OCR。如果您对已识别的文本不满意,那么最好看看Tesseract文档的“提高输出质量”部分(https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html )。
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.3</version>
</dependency>