Python 全栈工程师核心面试 300 问深入解析(2020 版)----全文预览
Python 全栈工程师核心面试 300 问深入解析(2020 版)----欢迎订阅

Win10环境安装tesseract-ocr4.0.0并配置环境变量

1. 下载tesseract最新版

tesseract最新版下载地址:
​​​ https://github.com/UB-Mannheim/tesseract/wiki​​​ windows系统选择32位或者64位下载即可
其它操作系统下面网址选择相应的版本
https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

2. tesseract安装

双击软件安装,一直下一步,但是有几处需要注意勾选上:

  1. 数据包和语言包,直接勾选上
  2. 安装位置自己选择,或者默认
  3. 由于是国外网站,安装下载语言包过程比较慢,我200M宽带速度也不稳定,等待了20分钟左右才安装结束.语言包中可以只勾选简体中文(chi_sim)和繁体中文(chi_tra),安装速度回快很多。

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_环境变量


安装完成后就可以设置环境变量了

3. 设置系统环境变量Path

桌面上此电脑->右键属性打开界面->点击高级系统设置->在打开的系统属性界面->高级下面点击环境变量->在环境变量界面选择系统变量中选中path,然后点下面的编辑,打开编辑环境变量界面新建一个C:\Program Files (x86)\Tesseract-OCR的值,然后确定

参考下图步骤:

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_环境变量_02


Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_OCR识别_03


新建一个变量,路径名,就是安安安装的Tesseract-OCR文件夹的路径地址,如下图

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_tesseract_04

4. 新建系统变量TESSDATA_PREFIX

系统变量下面新建一个TESSDATA_PREFIX变量名,路径就是tessdata文件夹的路径地址,复制过来即可

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_python_05

5. 查看软件版本及语言库

运行CMD命令

输入:tesseract -v,可以看到版本信息

输入:tesseract --list-langs来查看本地Tesseract-OCR支持语言库

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_环境变量_06


Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_OCR识别_07

6. 图像识别简单案例

画图编辑一张12345的图片,可以直接复制保存到桌面

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_OCR识别_08


打开CMD窗口,切换到桌面,

执行命令:tesseract 图片名称 输出文件名称

执行:tesseract test.png result eng

eng(用英文语言包识别,可以不写)

桌面自动就有了识别的结果result.txt

如下图:识别还是比较准确,但是后面多了一个符号

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_环境变量_09


第二次测试,上面数字可以准备识别,但是中文,就识别不了,机器需要慢慢学习才可以

Tesseract-OCR-4.0.0 安装和配置环境变量(附图像识别简单案例)_环境变量_10

7. 图像识别简单案例(Python3.7实现)

先PIP 安装pytesseract包

# Tesseract OCR图像识别

import pytesseract as pt
from PIL import Image

# 生成图片案例
image = Image.open('D:\Hello World\python_work\TLXY_study_note\Spider\图像识别测试.png')

# 调用pytesseract将图像转换成文字
text = pt.image_to_string(image)
print(text)

输出结果

"D:\Hello World\python_work\TLXY_study_note\venv\Scripts\python.exe" "D:/Hello World/python_work/TLXY_study_note/Spider/3. 动态HTML/77_3.py"

12 3 4 5

Process finished with exit code 0