Python 全栈工程师核心面试 300 问深入解析(2020 版)----全文预览
Python 全栈工程师核心面试 300 问深入解析(2020 版)----欢迎订阅
Win10环境安装tesseract-ocr4.0.0并配置环境变量
1. 下载tesseract最新版
tesseract最新版下载地址:
https://github.com/UB-Mannheim/tesseract/wiki windows系统选择32位或者64位下载即可
其它操作系统下面网址选择相应的版本
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows
2. tesseract安装
双击软件安装,一直下一步,但是有几处需要注意勾选上:
- 数据包和语言包,直接勾选上
- 安装位置自己选择,或者默认
- 由于是国外网站,安装下载语言包过程比较慢,我200M宽带速度也不稳定,等待了20分钟左右才安装结束.语言包中可以只勾选简体中文(chi_sim)和繁体中文(chi_tra),安装速度回快很多。
安装完成后就可以设置环境变量了
3. 设置系统环境变量Path
桌面上此电脑->右键属性打开界面->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值,然后确定
参考下图步骤:
新建一个变量,路径名,就是安安安装的Tesseract-OCR文件夹的路径地址,如下图
4. 新建系统变量TESSDATA_PREFIX
系统变量下面新建一个TESSDATA_PREFIX变量名,路径就是tessdata文件夹的路径地址,复制过来即可
5. 查看软件版本及语言库
运行CMD命令
输入:tesseract -v,可以看到版本信息
输入:tesseract --list-langs来查看本地Tesseract-OCR支持语言库
6. 图像识别简单案例
画图编辑一张12345的图片,可以直接复制保存到桌面
打开CMD窗口,切换到桌面,
执行命令:tesseract 图片名称 输出文件名称
执行:tesseract test.png result eng
eng(用英文语言包识别,可以不写)
桌面自动就有了识别的结果result.txt
如下图:识别还是比较准确,但是后面多了一个符号
第二次测试,上面数字可以准备识别,但是中文,就识别不了,机器需要慢慢学习才可以
7. 图像识别简单案例(Python3.7实现)
先PIP 安装pytesseract包
输出结果