关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库。
python验证码识别库安装
要安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。
from PIL import Image
import pytesseract
im=Image.open('backgroud.png')
#将图片进行灰度值转换
im.convert('L')
ret=pytesseract.image_to_string(im,config='-psm 7')
print(ret)
-psm:
将Tesseract设置为只运行布局分析的子集,并假定图像的某种形式。N的选项是:
0 =方向和脚本检测(OSD)。
1 = OSD自动页面分割。
2 =自动页面分割,没有OSD或OCR。
3 =全自动页面分割,无OSD。(默认)
4 =假设文本的一列为变量大小。
5 =假设一个垂直对齐的文本块。
6 =假设一个统一的文本块。
7 =将图像视为一条文本行。
8 =把图像看成一个词。
9 =把图像当作一个圆圈中的一个单词。
10 =将图像视为单个字符。