上一篇我们提到了车牌的位置定位,主要运用的知识点是查找边缘的轮廓,并且使用形态学的操作扩大、缩小轮廓然后提取出来。其实在OCR(光学字符识别)中也是会用到这样的方法,但是在OCR识别中,就可能会出现文字方向并不是出于完全的垂直或者完全的水平,而是倾斜一定的角度。
比如像上图这样的图片,那么在进行识别的时候就可能会因为这个因素而造成结果上的误差。那么在这个时候就需要对文本倾斜的角度进行校正。
矩阵校正法
具体的方法可以通过矩阵进行旋转校正。在经过形态学操作后,我们会获得文本的大概外轮廓信息,然后我们就可以根据外轮廓的点所在位置,来得出这个区域的最小外接矩形。通过minAreaRect这个函数,不仅能获得矩形宽与高,还能获得角度,中心点位置。
根据中心点和角度这两个参数输入到getRotationMatrix2D函数中,就可以获得我们所需的仿射变换矩阵。但是这其中又有一个要求:因为minAreaRect返回的角度范围处于[-90-0)。
当倾斜角度范围为 (-45, 0) 时,即小于45度的负角度,表示文本逆时针倾斜。此时,对该角度不进行处理,在仿射变换时进行顺时针旋转。
但是当文本倾斜角度范围为 [-90, -45) 时,表示文本顺时针倾斜,对该角度加上90度后得到一个小于45度的正角度,在仿射变换时逆时针旋转。
def rotated_img_with_radiation(gray, is_show=False):
thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 11, 2)
# 计算包含了旋转文本的最小边框
coords = np.column_stack(np.where(thresh > 0))
angle = cv2.minAreaRect(coords)[-1]
if angle < -45:
angle = -(90 + angle)
else:
angle = -angle
h, w = gray.shape[:2]
center = (w // 2, h // 2)
M = cv2.getRotationMatrix2D(center, angle, 1.0)
rotated = cv2.warpAffine(gray, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
return rotated
快速傅里叶变换法
上述方法中,对于垂直的图像就似乎不能为力了。但是因为通过傅里叶变换,再使用霍夫直线检测,就可以根据这条线段两个端点的坐标来判断出水平方向角度、垂直方向角度,找到角度值后也就可以识别出图像中物体的几何相关方向,通过这个角度来纠正图像。所以也可以使用FFT变换,然后再校正、变换回来。傅里叶变换的原理在于,任何一个函数都可以分解为无数个正弦函数和无数个余弦函数的和,所以就可以将图像从空间域转换到频率域。
在一幅图像的频率域中,高频部分代表了图像的细节、纹理信息;低频部分代表了图像的轮廓信息。就像下图:越靠近中心,越亮,频率也越低,越靠近边缘,越暗,频率也随之变高。我们可以对变换后处于频率域中的图像进行处理,这与信号处理的基本思想是相通的,倘若对一幅精细的图像使用低通滤波器,那么滤波后的结果就剩下了轮廓了。
如果图像受到的噪声恰好位于某个特定的“频率”范围内,则可以通过滤波器来恢复原来的图像。
def rotated_img_with_fft(gray):
# 图像延扩
h, w = gray.shape[:2]
#以空间换时间,一般应该是2的n次方,这样便于FFT进行更多层次的二分,从而加快变换速度扩大数值到特定值来加速傅里叶变换
new_h = cv2.getOptimalDFTSize(h)
new_w = cv2.getOptimalDFTSize(w)
right = new_w - w
bottom = new_h - h
#扩充图像的边界,
img = cv2.copyMakeBorder(gray, 0, bottom, 0, right, borderType=cv2.BORDER_CONSTANT, value=0)
# 执行傅里叶变换,并过得频域图像
f = np.fft.fft2(img )
fshift = np.fft.fftshift(f)
fft_img = np.log(np.abs(fshift))
fft_img = (fft_img - np.amin(fft_img)) / (np.amax(fft_img) - np.amin(fft_img))
fft_img *= 255
ret, thresh = cv2.threshold(fft_img, 150, 255, cv2.THRESH_BINARY)
# 霍夫直线变换
thresh = thresh.astype(np.uint8)
lines = cv2.HoughLinesP(thresh, 1, np.pi / 180, 30, minLineLength=40, maxLineGap=100)
try:
lines1 = lines[:, 0, :]
except Exception as e:
lines1 = []
piThresh = np.pi / 180
pi2 = np.pi / 2
angle = 0
for line in lines1:
x1, y1, x2, y2 = line
if x2 - x1 == 0:
continue
else:
theta = (y2 - y1) / (x2 - x1)
if abs(theta) < piThresh or abs(theta - pi2) < piThresh:
continue
else:
angle = abs(theta)
break
angle = math.atan(angle)
angle = angle * (180 / np.pi)
center = (w // 2, h // 2)
height_1 = int(w * fabs(sin(radians(angle))) + h * fabs(cos(radians(angle))))
width_1 = int(h * fabs(sin(radians(angle))) + w * fabs(cos(radians(angle))))
M = cv2.getRotationMatrix2D(center, angle, 1.0)
M[0, 2] += (width_1 - w) / 2
M[1, 2] += (height_1 - h) / 2
rotated = cv2.warpAffine(gray, M, (width_1, height_1), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
return rotated
最后效果图: