python opencv 提取文字 opencv文字识别输出到文本

转载

我是数据分析师 2023-07-28 14:13:22

文章标签 python opencv 提取文字 opencv 人工智能计算机视觉 python 文章分类 Python 后端开发

首先在pycharm中建立文件夹，点击在File中settings

python opencv 提取文字 opencv文字识别输出到文本_python

在这里我们安装opencv-python，和pytesseract。到这一步，准备活动就基本完成了。

python opencv 提取文字 opencv文字识别输出到文本_python_02

然后创建一个.py文件，开始我们的项目吧。

我默认你有一点点opencv的基础和python的基础。

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"
#添加的是你的tesseract的绝对路径，还要加上他的exe执行文件

下面读取一张照片，只要包含英文字母和数字就可以，这个随你喜欢，我的是这个

python opencv 提取文字 opencv文字识别输出到文本_计算机视觉_03

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

img = cv2.imread('Rescources/textone.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
print(pytesseract.image_to_string(img))

cv2.imshow('img',img)
cv2.waitKey(0)

首先你可以通过pytesseract.image_to_string()函数，检测出图片上的英文字母和数字

python opencv 提取文字 opencv文字识别输出到文本_python_04

其次我们可以通过函数pytesseract.image_to_boxes()打印出每个数字或者字母的坐标，为后续的步骤做准备。

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

img = cv2.imread('Rescources/textone.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
#print(pytesseract.image_to_string(img))
print(pytesseract.image_to_boxes(img))


cv2.imshow('img',img)
cv2.waitKey(0)

python opencv 提取文字 opencv文字识别输出到文本_opencv_05

接下来先完成字符检测。我们要给识别出来的英文和数字加个方框。

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

img = cv2.imread('Rescources/textone.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
#print(pytesseract.image_to_string(img))
#print(pytesseract.image_to_boxes(img))


### Detecting Characters  检测字符
Himg,Wimg,_ = img.shape
boxes = pytesseract.image_to_boxes(img)
for box in boxes.splitlines():
    #print(box)
    box = box.split(' ')
    #print(box)
    x,y,w,h = int(box[1]),int(box[2]),int(box[3]),int(box[4])#坐标是以左下角为中心，所以下面计算坐标要换算
    cv2.rectangle(img,(x,Himg-y),(w,Himg-h),(0,0,255),2)
    cv2.putText(img,box[0],(x,Himg-y+20),cv2.FONT_HERSHEY_DUPLEX,1,(0,50,255),2)


cv2.imshow('img',img)
cv2.waitKey(0)

这一步基本上没啥难度，就是在获取的坐标上做文章而已。

python opencv 提取文字 opencv文字识别输出到文本_python_06

当然我们我们只完成这点操作是远远不够的，我们要识别单词

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

img = cv2.imread('Rescources/textone.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
#print(pytesseract.image_to_string(img))
#print(pytesseract.image_to_boxes(img))


### Detecting Words 检测单词
Himg,Wimg,_ = img.shape
boxes = pytesseract.image_to_data(img)
print(boxes)
for x,b in enumerate(boxes.splitlines()):#如果是单词被识别出来，会返回12个参数
    if x!=0:
        b = b.split()
        if len(b)==12:#判断是否返回的是单词，利用是否是十二个参数
            x,y,w,h = int(b[6]),int(b[7]),int(b[8]),int(b[9])
            cv2.rectangle(img, (x,y), (w+x, h+y), (0, 0, 255), 2)
            cv2.putText(img, b[11], (x,y), cv2.FONT_HERSHEY_DUPLEX, 1, (0, 50, 255), 2)


cv2.imshow('img',img)
cv2.waitKey(0)

python opencv 提取文字 opencv文字识别输出到文本_python_07

你也可以更改配置来自由的选择自己识别的是什么，比如说只识别数字，这是ome 和psm的具体参数代表的意思。

python opencv 提取文字 opencv文字识别输出到文本_人工智能_08

python opencv 提取文字 opencv文字识别输出到文本_python opencv 提取文字_09

cong = r'--oem 3 --psm 6 outputbase digits'#添加命令
boxes = pytesseract.image_to_data(img,config=cong)

只需要在上面一个程序中增加和修改这些即可

python opencv 提取文字 opencv文字识别输出到文本_python opencv 提取文字_10

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = "C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

img = cv2.imread('Rescources/textone.png')
img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
#print(pytesseract.image_to_string(img))
#print(pytesseract.image_to_boxes(img))


### Detecting Words 检测单词
Himg,Wimg,_ = img.shape
cong = r'--oem 3 --psm 6 outputbase digits'#添加命令
boxes = pytesseract.image_to_data(img,config=cong)
print(boxes)
for x,b in enumerate(boxes.splitlines()):
    if x!=0:
        b = b.split()
        if len(b)==12:#判断是否返回的是单词，利用是否是十二个参数
            x,y,w,h = int(b[6]),int(b[7]),int(b[8]),int(b[9])
            cv2.rectangle(img, (x,y), (w+x, h+y), (0, 0, 255), 2)
            cv2.putText(img, b[11], (x,y), cv2.FONT_HERSHEY_DUPLEX, 1, (0, 50, 255), 2)


cv2.imshow('img',img)
cv2.waitKey(0)

ok，这次的小项目就到这里啦，下次见。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。