python Tesseract 文字识别带位置

原创

mob64ca12e7b5cf 2025-02-13 07:31:43 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e7b5cf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python Tesseract 文字识别与位置获取

在当今信息化时代，文字识别（OCR, Optical Character Recognition）被广泛应用于文档处理、票据识别和图像分析等多个领域。Python 中的 Tesseract 库是进行 OCR 任务的一个强大工具。本文将介绍如何使用 Python 中的 Tesseract 库进行文字识别，并获取识别文字的位置。

环境准备

在开始之前，确保你的计算机上已安装以下软件和库：

Tesseract OCR：先在你的计算机上安装 Tesseract OCR。可以到 [Tesseract GitHub]( 页面下载并根据说明进行安装。
Python 和 Pillow库：用于图像处理。
pytesseract：Python 的 Tesseract 封装库，用于调用 Tesseract 功能。

可以用以下命令安装 pytesseract 和 Pillow：

pip install pytesseract pillow

流程图

下面是进行文字识别的基本流程图，展示了从图像加载到识别结果输出的步骤：

flowchart TD
    A[加载图像] --> B[预处理图像]
    B --> C[使用 Tesseract 识别文字]
    C --> D[获取文字位置信息]
    D --> E[输出识别结果]

文字识别与位置信息获取

以下是一个使用 Tesseract 进行文字识别的示例代码，包括文字位置的获取。

from PIL import Image
import pytesseract

# 设置 Tesseract OCR 程序的路径，如果已添加到系统环境变量可以省略
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 加载图像
image_path = 'example.png'  # 图像文件路径
image = Image.open(image_path)

# 进行文字识别
results = pytesseract.image_to_data(image, output_type=pytesseract.Output.DICT)

# 输出识别结果和位置信息
for i in range(len(results['text'])):
    if int(results['conf'][i]) > 60:  # 过滤掉低置信度的结果
        text = results['text'][i]
        x = results['left'][i]
        y = results['top'][i]
        width = results['width'][i]
        height = results['height'][i]
        print(f"识别到文字：{text}, 位置：({x}, {y}), 尺寸：{width}x{height}")

代码解析

加载图像：通过 PIL 库加载需要处理的图像。
文字识别：调用 pytesseract.image_to_data() 函数，这个函数不仅能识别图像中的文字，还能返回每个单词的位置和置信度。
过滤低置信度结果：通过置信度来过滤掉识别不准确的文字。
输出结果：将识别到的文字及其位置信息打印出来。

状态图

在整个文字识别过程中，程序状态可以用状态图进行表示。

stateDiagram
    [*] --> 加载图像
    加载图像 --> 预处理图像
    预处理图像 --> 文字识别
    文字识别 --> 获取位置信息
    获取位置信息 --> 输出结果
    输出结果 --> [*]

总结

通过以上示例代码，我们展示了如何利用 Python 中的 Tesseract 库进行图像中文字的识别，并获取这些文字在图像中的位置信息。文字识别技术的应用正在快速发展，未来我们将看到更多基于 OCR 的智能应用。希望本文能帮助你更好地理解和利用 Tesseract 进行 OCR 识别。如果对文章中的内容有任何疑问，欢迎提出！