paddleocr识别速度慢 gpu paddleocr文字识别

转载

mob64ca140088a9 2024-02-09 18:26:33

文章标签 paddleocr识别速度慢 gpu python 二值化文字居中无法识别 文章分类 游戏开发

PaddleOCR 图片文字提取

需求
一.裁剪车牌号码区域
二.对车牌小图进行处理
三.填充边界
四.识别步骤

需求

工作上的一个需求，需要把图片中的车牌号码提取出来。如图，车牌在图片固定位置。开始使用pytesseract，对中文识别特别不友好，毕竟是外国人的东西。同事推荐使用PaddleOCR，国人开发的东西就是不一样，识别正确率居然可以达到90%以上。不过两者都存在共性问题，黑底白字无法识别/范围太小识别不准等。

paddleocr识别速度慢 gpu paddleocr文字识别_python

一.裁剪车牌号码区域

# np.fromfil 从文本或二进制文件中的数据构造一个数组
# cv2.imdecode()把读取的数据转换(解码)成图像格式;主要用于从网络传输数据中恢复出图像
# cv2.IMREAD_UNCHANGED：读入完整图片，包括alpha通道,可以直接写-1
img = cv2.imdecode(np.fromfile(imgSrc, dtype=np.uint8), cv2.IMREAD_UNCHANGED)
cropImg = img[y1:y2, x1:x2] #顺序为上下 左右

（车牌裁剪出来的小图）

paddleocr识别速度慢 gpu paddleocr文字识别_文字居中_02

正常来说把上面裁剪出来的小图进行OCR，就可以识别出文字了，结果....

paddleocr识别速度慢 gpu paddleocr文字识别_paddleocr识别速度慢 gpu_03

于是百度找了张图，刚好是白底黑字文字居中，结果神奇地识别结果100%识别正确。经过对比，我断定是白色字体无法识别，接着又把小图进行反相处理。

二.对车牌小图进行处理

height, width, deep = cropImg.shape
 gray = cv2.cvtColor(cropImg, cv2.COLOR_BGR2GRAY) # cv2.COLOR_BGR2GRAY 将BGR格式转换成灰度图片
 dst = np.zeros((height, width, 1), np.uint8) #生成一张纯黑色图
 
 for i in range(0, height):  # 反相 转白底黑字
     for j in range(0, width):
         grayPixel = gray[i, j]
         dst[i, j] = 255 - grayPixel
  #走完这一步，已经实现了 转白底黑字，但是白色低背景不是最亮的
  #再用cv2.threshold进行二值化，使黑色部分更黑，白的更白
ret, img = cv2.threshold(dst, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

对小图进行反相处理后的结果就是下面这样，仔细看发现白色底不是很白，再用cv.threshold进行二值化（非黑既白），通对比二值化的图片，层次感就出来了。

（反相后）

paddleocr识别速度慢 gpu paddleocr文字识别_二值化_04

（二值化后）

paddleocr识别速度慢 gpu paddleocr文字识别_二值化_05

再次进行识别，识别结果终于出来了，但是发现最后一位7被识别成了2，按道理来说这么简单的文字不应该识别错。于是想到前面用来测试识别的图片边界很宽，文字居中，接着对小图进行了填充白底边界150个像素。

三.填充边界

# cv2.BORDER_CONSTANT 固定值填充方式
imgsrc = cv2.copyMakeBorder(img, 150, 150, 150, 150, cv2.BORDER_CONSTANT, value=[255, 255, 255])

（填充后）

paddleocr识别速度慢 gpu paddleocr文字识别_二值化_06

四.识别步骤

ocr = PaddleOCR(use_angle_cls=True, use_gpu=False)  # 使用CPU预加载，不用GPU
text = ocr.ocr(img, cls=True)
result = str(text[0][1][0]).replace('车牌号码：', '').upper()

（最终识别效果）

paddleocr识别速度慢 gpu paddleocr文字识别_python_07