python 识别图片文本及位置

原创

mob649e81553a70 2023-07-22 17:56:29 ©著作权

文章标签 取文本 Python Image 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81553a70的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python识别图片文本及位置

在处理图片时，有时候我们需要获取图片中的文本内容，并且知道文本在图片中的位置。Python提供了一些库和工具，可以帮助我们实现这一功能。本文将介绍如何使用Python识别图片中的文本，并获取文本在图片中的位置信息。

1. 安装依赖库

在开始之前，我们需要安装一些必要的依赖库。其中，最重要的是pytesseract库，它是一个用于OCR（光学字符识别）的Python包。可以通过以下命令安装：

pip install pytesseract

此外，我们还需要安装pillow库，用于处理图片：

pip install pillow

2. 图片文本识别

首先，我们需要导入相关库和模块：

from PIL import Image
import pytesseract

然后，我们可以定义一个函数来实现图片文本识别：

def recognize_text(image_path):
    # 打开图片并进行灰度处理
    image = Image.open(image_path).convert('L')
    # 使用pytesseract进行图片文本识别
    text = pytesseract.image_to_string(image)
    return text

在上面的代码中，我们首先使用Image.open(image_path)打开图片，并使用convert('L')将图片转换为灰度图像。然后，我们使用pytesseract.image_to_string(image)将图片中的文本识别出来，并将结果返回。

3. 获取文本位置

如果我们还需要获取文本在图片中的位置信息，我们可以稍作修改：

def recognize_text_with_location(image_path):
    # 打开图片并进行灰度处理
    image = Image.open(image_path).convert('L')
    # 使用pytesseract进行图片文本识别
    result = pytesseract.image_to_boxes(image)
    
    # 解析结果，获取文本和位置信息
    text_with_location = []
    for line in result.splitlines():
        data = line.split(' ')
        text = data[0]
        x, y, w, h = int(data[1]), int(data[2]), int(data[3]), int(data[4])
        text_with_location.append((text, x, y, w, h))
    
    return text_with_location

在上面的代码中，我们使用pytesseract.image_to_boxes(image)代替了之前的pytesseract.image_to_string(image)，这样我们可以获取到文本的位置信息。

4. 示例

假设我们有一张包含文本的图片example.png，我们可以使用上述函数进行文本识别和位置获取：

image_path = 'example.png'

# 文本识别
text = recognize_text(image_path)
print('识别结果：', text)

# 获取文本位置
text_with_location = recognize_text_with_location(image_path)
for text, x, y, w, h in text_with_location:
    print('文本：', text)
    print('位置：左上角({},{})，右下角({},{})'.format(x, y, x+w, y+h))