上一篇我们提到了车牌的位置定位,主要运用的知识点是查找边缘的轮廓,并且使用形态学的操作扩大、缩小轮廓然后提取出来。其实在OCR(光学字符识别)中也是会用到这样的方法,但是在OCR识别中,就可能会出现文字方向并不是出于完全的垂直或者完全的水平,而是倾斜一定的角度。

java 设置倾斜水印 java图片文字倾斜矫正_opencv


比如像上图这样的图片,那么在进行识别的时候就可能会因为这个因素而造成结果上的误差。那么在这个时候就需要对文本倾斜的角度进行校正。

矩阵校正法

具体的方法可以通过矩阵进行旋转校正。在经过形态学操作后,我们会获得文本的大概外轮廓信息,然后我们就可以根据外轮廓的点所在位置,来得出这个区域的最小外接矩形。通过minAreaRect这个函数,不仅能获得矩形宽与高,还能获得角度,中心点位置。
根据中心点和角度这两个参数输入到getRotationMatrix2D函数中,就可以获得我们所需的仿射变换矩阵。但是这其中又有一个要求:因为minAreaRect返回的角度范围处于[-90-0)。
当倾斜角度范围为 (-45, 0) 时,即小于45度的负角度,表示文本逆时针倾斜。此时,对该角度不进行处理,在仿射变换时进行顺时针旋转。
但是当文本倾斜角度范围为 [-90, -45) 时,表示文本顺时针倾斜,对该角度加上90度后得到一个小于45度的正角度,在仿射变换时逆时针旋转。

def rotated_img_with_radiation(gray, is_show=False):
    thresh = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY_INV, 11, 2)
    # 计算包含了旋转文本的最小边框
    coords = np.column_stack(np.where(thresh > 0))
    angle = cv2.minAreaRect(coords)[-1]
    
    if angle < -45:
        angle = -(90 + angle)
    else:
        angle = -angle
    
    h, w = gray.shape[:2]
    center = (w // 2, h // 2)
    M = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated = cv2.warpAffine(gray, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
    return rotated

快速傅里叶变换法

上述方法中,对于垂直的图像就似乎不能为力了。但是因为通过傅里叶变换,再使用霍夫直线检测,就可以根据这条线段两个端点的坐标来判断出水平方向角度、垂直方向角度,找到角度值后也就可以识别出图像中物体的几何相关方向,通过这个角度来纠正图像。所以也可以使用FFT变换,然后再校正、变换回来。傅里叶变换的原理在于,任何一个函数都可以分解为无数个正弦函数和无数个余弦函数的和,所以就可以将图像从空间域转换到频率域。

在一幅图像的频率域中,高频部分代表了图像的细节、纹理信息;低频部分代表了图像的轮廓信息。就像下图:越靠近中心,越亮,频率也越低,越靠近边缘,越暗,频率也随之变高。我们可以对变换后处于频率域中的图像进行处理,这与信号处理的基本思想是相通的,倘若对一幅精细的图像使用低通滤波器,那么滤波后的结果就剩下了轮廓了。

如果图像受到的噪声恰好位于某个特定的“频率”范围内,则可以通过滤波器来恢复原来的图像。

java 设置倾斜水印 java图片文字倾斜矫正_opencv_02

def rotated_img_with_fft(gray):
    # 图像延扩
    h, w = gray.shape[:2]
    #以空间换时间,一般应该是2的n次方,这样便于FFT进行更多层次的二分,从而加快变换速度扩大数值到特定值来加速傅里叶变换
    new_h = cv2.getOptimalDFTSize(h) 
    new_w = cv2.getOptimalDFTSize(w)
    right = new_w - w
    bottom = new_h - h
    #扩充图像的边界,
    img = cv2.copyMakeBorder(gray, 0, bottom, 0, right, borderType=cv2.BORDER_CONSTANT, value=0)

    # 执行傅里叶变换,并过得频域图像
    f = np.fft.fft2(img )
    fshift = np.fft.fftshift(f)

    fft_img = np.log(np.abs(fshift))
    fft_img = (fft_img - np.amin(fft_img)) / (np.amax(fft_img) - np.amin(fft_img))

    fft_img *= 255
    ret, thresh = cv2.threshold(fft_img, 150, 255, cv2.THRESH_BINARY)

    # 霍夫直线变换
    thresh = thresh.astype(np.uint8)
    lines = cv2.HoughLinesP(thresh, 1, np.pi / 180, 30, minLineLength=40, maxLineGap=100)
    try:
        lines1 = lines[:, 0, :]
    except Exception as e:
        lines1 = []

    piThresh = np.pi / 180
    pi2 = np.pi / 2
    angle = 0
    for line in lines1:
        x1, y1, x2, y2 = line
        if x2 - x1 == 0:
            continue
        else:
            theta = (y2 - y1) / (x2 - x1)
        if abs(theta) < piThresh or abs(theta - pi2) < piThresh:
            continue
        else:
            angle = abs(theta)
            break
    
    angle = math.atan(angle)
    angle = angle * (180 / np.pi)

    center = (w // 2, h // 2)
    height_1 = int(w * fabs(sin(radians(angle))) + h * fabs(cos(radians(angle))))
    width_1 = int(h * fabs(sin(radians(angle))) + w * fabs(cos(radians(angle))))
    M = cv2.getRotationMatrix2D(center, angle, 1.0)
    M[0, 2] += (width_1 - w) / 2
    M[1, 2] += (height_1 - h) / 2
    rotated = cv2.warpAffine(gray, M, (width_1, height_1), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)

    return rotated

最后效果图:

java 设置倾斜水印 java图片文字倾斜矫正_傅里叶变换_03