pytesseract识别的不清楚 python tesseract-ocr

转载

云中谁寄锦书来 2024-03-19 09:02:04

文章标签 pytesseract识别的不清楚图像中文识别 Pysesseract Tesseract-OCR python 文章分类 架构后端开发

最近在研究中文图像识别的内容，发现需要安装一些软件，尤其是要下载并安装Tesseract-OCR，安装后遇到了很多bug（坑），一直运行不了代码，终于查了多好资料，搞定了。如果运行脚本报错，一定是你忘记重启电脑了。

为了大家安装调试能顺利，避免这些坑，决定写一篇文章来介绍整个流程。如果某些地方不明白，可以留言，一一为大家解答！

1. 作者环境说明

操作系统：Windows10
python：3.6
pycharm：2019.2.2

2. 安装相关python包

pip install Pillow
pip install pysesseract

3. 需要下载并安装的软件

下载链接：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载完后，安装到你对应的目录下

4. 修改pytesseract.py文件

pytesseract识别的不清楚 python tesseract-ocr_Pysesseract

将tesseract_cmd = 'tesseract’注释掉，修改为

tesseract_cmd = 'D:/Program Files (x86)/Asiainfo/Tesseract-OCR/tesseract.exe'

具体图片如下

pytesseract识别的不清楚 python tesseract-ocr_pytesseract识别的不清楚_02

注意：斜杠/与\的区别

5. 配置Tesseract-OCR环境变量

5.1 控制面板 -> 系统和安全 -> 系统 -> 高级设置

5.2 在弹出的框中，点高级 -> 环境变量，如下图所示

pytesseract识别的不清楚 python tesseract-ocr_Pysesseract_03

5.3 在弹出的框中，修改用户变量和系统变量中的path路径，在path下添加安装路径，我的路径是 D:\Program Files (x86)\Tesseract-OCR\tessdata ，见下图

pytesseract识别的不清楚 python tesseract-ocr_图像中文识别_04

5.4 在用户变量和系统变量中，增加变量TESSDATA_PREFIX，具体如下图所示

pytesseract识别的不清楚 python tesseract-ocr_图像中文识别_05

6. 非常重要一步：重启电脑，必须重启，不然调试脚本过程中会报错！！！！！

7. 在Pycharm写脚本进行测试

运行测试脚本，脚本内容如下：

pytesseract识别的不清楚 python tesseract-ocr_Tesseract-OCR_06

如果可以显示正常结果，则表示安装成功，下面是运行结果

pytesseract识别的不清楚 python tesseract-ocr_python_07

在这个上基本都能识别出来，但是识别表格中的内容效果不太好，也可能是我初次接触图片识别，没找到更好的方法，会继续探索！

大家如果有什么好的建议，还请大家多多提意见和建议！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：获取 promethues告警获取prepayid失败是什么意思

下一篇：遍历 bytes 遍历二叉树口诀

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

pytesseract识别的不清楚 python tesseract-ocr

pytesseract识别的不清楚 python tesseract-ocr

最近在研究中文图像识别的内容，发现需要安装一些软件，尤其是要下载并安装Tesseract-OCR，安装后遇到了很多bug（坑），一直运行不了代码，终于查了多好资料，搞定了。如果运行脚本报错，一定是你忘记重启电脑了。

为了大家安装调试能顺利，避免这些坑，决定写一篇文章来介绍整个流程。如果某些地方不明白，可以留言，一一为大家解答！

1. 作者环境说明

2. 安装相关python包

3. 需要下载并安装的软件

下载链接：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载完后，安装到你对应的目录下

4. 修改pytesseract.py文件

将tesseract_cmd = 'tesseract’注释掉，修改为

具体图片如下

注意：斜杠/与\的区别

5. 配置Tesseract-OCR环境变量

5.1 控制面板 -> 系统和安全 -> 系统 -> 高级设置

5.2 在弹出的框中， 点 高级 -> 环境变量，如下图所示

5.3 在弹出的框中，修改用户变量和系统变量中的path路径，在path下添加安装路径，我的路径是 D:\Program Files (x86)\Tesseract-OCR\tessdata ，见下图

5.4 在用户变量和系统变量中，增加变量TESSDATA_PREFIX，具体如下图所示

6. 非常重要一步：重启电脑，必须重启，不然调试脚本过程中会报错！！！！！

7. 在Pycharm写脚本进行测试

运行测试脚本，脚本内容如下：

如果可以显示正常结果，则表示安装成功，下面是运行结果

在这个上基本都能识别出来，但是识别表格中的内容效果不太好，也可能是我初次接触图片识别，没找到更好的方法，会继续探索！

大家如果有什么好的建议，还请大家多多提意见和建议！

51CTO博客

5.2 在弹出的框中，点高级 -> 环境变量，如下图所示