最近在研究中文图像识别的内容,发现需要安装一些软件,尤其是要下载并安装Tesseract-OCR,安装后遇到了很多bug(坑),一直运行不了代码,终于查了多好资料,搞定了。如果运行脚本报错,一定是你忘记重启电脑了。
为了大家安装调试能顺利,避免这些坑,决定写一篇文章来介绍整个流程。如果某些地方不明白,可以留言,一一为大家解答!
1. 作者环境说明
操作系统:Windows10
python:3.6
pycharm:2019.2.2
2. 安装相关python包
pip install Pillow
pip install pysesseract
3. 需要下载并安装的软件
下载链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载完后,安装到你对应的目录下
4. 修改pytesseract.py文件
将tesseract_cmd = 'tesseract’注释掉,修改为
tesseract_cmd = 'D:/Program Files (x86)/Asiainfo/Tesseract-OCR/tesseract.exe'
具体图片如下
注意:斜杠/与\的区别
5. 配置Tesseract-OCR环境变量
5.1 控制面板 -> 系统和安全 -> 系统 -> 高级设置
5.2 在弹出的框中, 点 高级 -> 环境变量,如下图所示
5.3 在弹出的框中,修改用户变量和系统变量中的path路径,在path下添加安装路径,我的路径是 D:\Program Files (x86)\Tesseract-OCR\tessdata ,见下图
5.4 在用户变量和系统变量中,增加变量TESSDATA_PREFIX,具体如下图所示
6. 非常重要一步:重启电脑,必须重启,不然调试脚本过程中会报错!!!!!
7. 在Pycharm写脚本进行测试
运行测试脚本,脚本内容如下:
如果可以显示正常结果,则表示安装成功,下面是运行结果
在这个上基本都能识别出来,但是识别表格中的内容效果不太好,也可能是我初次接触图片识别,没找到更好的方法,会继续探索!
大家如果有什么好的建议,还请大家多多提意见和建议!