Tesseract OCR 图片文字识别

转载

mob604756f1e4c7 2021-10-24 10:52:00

Tesseract 介绍

Tesseract是一个开源的文本识别引擎，支持多种语言。4.0.0版本增加了LSTM神经网络。Tesseract最初是由惠普公司研发，2005年开源。

下载Tesseract的安装包

安装过程：

Tesseract OCR 图片文字识别_命令行

选择语言包：

使用Tesseract进行文本识别时，需要下载相应的语言包，如本文需要对中文进行识别在data下载chi_sim.traineddata放到TESSDATA_PREFIX目录下。

Tesseract没有提供图形界面，只能通过命令行或者编程语言来调用。

需要注意的是，在使用Tessearct对中文进行识别的时候需要指定使用的语言模型，否则会识别失败出现一堆乱码。

命令行调用Tesseract
tesseract 1.png result -l chi_sim # -l 参数指定语言模型
python调用Tessearct
使用python调用Tessearct需要首先安装两个python lib
pip install pillow pip install pytesseract
使用python调用Tessearct进行图片中文识别
# coding = utf-8 from PIL import Image import pytesseract image = Image.open("1.png") # 这里lang='chi_sim'参数很重要，意思是对中文进行识别，如果加这个参数默认应该是英文的，中文识别出来的是乱码 text = pytesseract.image_to_string(image, lang='chi_sim') print(text) ''' 类似于 919@400 ROK 1X < Aah @ Fix arta ExT, 2% Med Ea BAAR ALFRE RIE tS | Be Be cai | = LRT +R '''