最近在研究中文图像识别的内容,发现需要安装一些软件,尤其是要下载并安装Tesseract-OCR,安装后遇到了很多bug(坑),一直运行不了代码,终于查了多好资料,搞定了。如果运行脚本报错,一定是你忘记重启电脑了。
为了大家安装调试能顺利,避免这些坑,决定写一篇文章来介绍整个流程。如果某些地方不明白,可以留言,一一为大家解答!

1. 作者环境说明

操作系统:Windows10
python:3.6
pycharm:2019.2.2

2. 安装相关python包

pip install Pillow
pip install pysesseract

3. 需要下载并安装的软件

下载链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载完后,安装到你对应的目录下

4. 修改pytesseract.py文件

pytesseract识别的不清楚 python tesseract-ocr_Pysesseract

将tesseract_cmd = 'tesseract’注释掉,修改为
tesseract_cmd = 'D:/Program Files (x86)/Asiainfo/Tesseract-OCR/tesseract.exe'
具体图片如下

pytesseract识别的不清楚 python tesseract-ocr_pytesseract识别的不清楚_02

注意:斜杠/与\的区别

5. 配置Tesseract-OCR环境变量

5.1 控制面板 -> 系统和安全 -> 系统 -> 高级设置
5.2 在弹出的框中, 点 高级 -> 环境变量,如下图所示

pytesseract识别的不清楚 python tesseract-ocr_Pysesseract_03

5.3 在弹出的框中,修改用户变量和系统变量中的path路径,在path下添加安装路径,我的路径是 D:\Program Files (x86)\Tesseract-OCR\tessdata ,见下图

pytesseract识别的不清楚 python tesseract-ocr_图像中文识别_04

5.4 在用户变量和系统变量中,增加变量TESSDATA_PREFIX,具体如下图所示

pytesseract识别的不清楚 python tesseract-ocr_图像中文识别_05

6. 非常重要一步:重启电脑,必须重启,不然调试脚本过程中会报错!!!!!

7. 在Pycharm写脚本进行测试

运行测试脚本,脚本内容如下:

pytesseract识别的不清楚 python tesseract-ocr_Tesseract-OCR_06

如果可以显示正常结果,则表示安装成功,下面是运行结果

pytesseract识别的不清楚 python tesseract-ocr_python_07

在这个上基本都能识别出来,但是识别表格中的内容效果不太好,也可能是我初次接触图片识别,没找到更好的方法,会继续探索!
大家如果有什么好的建议,还请大家多多提意见和建议!