自动提取pic下面的图片中文字

原创

simeon2005 2023-05-07 22:40:48 博主文章分类：免费资源 ©著作权

文章标签 Image 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者simeon2005的原创作品，请联系作者获取转载授权，否则将追究法律责任

import os
import pytesseract
from PIL import Image

# 设置 pytesseract 路径
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 获取pic目录下的所有图片文件
pic_dir = './pic'
pic_files = [f for f in os.listdir(pic_dir) if f.endswith('.jpg')]

# 遍历所有图片文件并识别文字
with open('out.txt', 'w', encoding='utf-8') as f:
    for pic_file in pic_files:
        # 打开图片
        img_path = os.path.join(pic_dir, pic_file)
        try:
            with Image.open(img_path) as img:
                # 识别文字
                text = pytesseract.image_to_string(img, lang='eng')
                # 保存文字
                f.write(text)
        except Exception as e:
            print(f"图片 {img_path} 处理出错：{e}")

print('文字提取完成')