python+selenium 验证码处理

1、针对公司内部的项目有两个方法,
(1)设置一个万能验证码,只要每次填写这个验证码就可以验证通过
(2)将手机号设置为白名单,只要输入特定的手机号,则不校验验证码
2、针对外部项目则可使用下面的方法
(3)截取验证码部分并使用图片识别技术识别

(3)通过截取验证码图片

import time
import pytesseract
from PIL import Image, ImageEnhance
from selenium import webdriver
 
url = "https://www.xxxxx.com"
# 1、打开浏览器,最大化浏览器
driver = webdriver.Chrome()
driver.get(url)
#driver.implicitly_wait(10)#隐式等待10s
driver.maximize_window()#最大化窗口
 
name=driver.find_element_by_id("username")#定位账号输入框
password=driver.find_element_by_id("password_1")#定位密码输入框
code1=driver.find_element_by_id("user_ck")#定位验证码输入框
 
driver.save_screenshot("H://test/01.png")#截取屏幕内容,保存到本地
 
ran = Image.open("H://test/01.png")#打开截图,获取验证码位置,截取保存验证码
box = (564, 395, 643, 423)  # 获取验证码位置,自动定位不是很明白,就使用了手动定位,代表(左,上,右,下)
ran.crop(box).save("H://test/02.png")#把获取的验证码保存
#获取验证码图片,读取验证码
imageCode = Image.open("H://test/02.png")  #打开保存的验证码图片
#imageCode.load()
# 图像增强,二值化
sharp_img = ImageEnhance.Contrast(imageCode).enhance(2.0)
sharp_img.save("H://test/03.png")#保存图像增强,二值化之后的验证码图片
sharp_img.load()  # 对比度增强
time.sleep(2)
print(sharp_img)#打印图片的信息
code = pytesseract.image_to_string(sharp_img).strip()#读取验证码
# 5、收到验证码,进行输入验证
print(code)#输出验证码
name.send_keys('60037')#给定位账号的输入框中输入值
password.send_keys('123456')#给定位密码的输入框中输入值
code1.send_keys(code)#给定位验证码的输入框中输入读取到的验证码
click=driver.find_element_by_name("yt0").click()#点击登录
time.sleep(2)
#关闭浏览器
driver.quit()

PS:关于上面的手动定位方法,其实也很简单,我们拿到截取屏幕的图片后,用画图工具打开,用光标分别找到验证码的左、上、右、下的4个点,然后把坐标写到上面代码中就可以了。

也可以使用自动定位
一、截取验证码
selenium webdriver 的api中直接提供了截图的方法.但是是全屏,要实现对元素的截取,则需要绕一绕弯
1、获取到元素的大小、元素的坐标
2、截取整屏
3、根据元素的坐标和大小,定位要剪裁的区域
4、使用图像库对元素区域进行剪裁
python代码实现:

driver.get_screenshot_as_file('a.jpg')
        location = driver.find_element_by_id('validate-img').location
        size = driver.find_element_by_id('validate-img').size
        left = location['x']
        top =  location['y']
        right = location['x'] + size['width']
        bottom = location['y'] + size['height']
        a = Image.open("a.jpg")
        im = a.crop((left,top,right,bottom))
        im.save('a.jpg')
        time.sleep(1)

代码没有注释部分,解释起来就是上面的四个步骤

3、中途出现的错误:

python邮箱验证码验证 python验证码处理_验证码

4、解决:

这个错误就是出现在image_to_string(imageCode)这个方法,没有加载到文件。具体原因,emmm,比较菜,没懂。

我的解决办法,首先是下载tesseract-ocr这个文件,下载链接:https://github.com/UB-Mannheim/tesseract/wiki

如图,所示:

python邮箱验证码验证 python验证码处理_验证码_02


下载好exe文件,安装在特定的文件夹下。

然后,打开pytesseract.py文件,找到tesseract_cmd,将原来的注释掉,然后添加新的:tesseract_cmd=“路径/tesseract.exe”。

再执行代码,成功。

python邮箱验证码验证 python验证码处理_python邮箱验证码验证_03

还存在问题:

识别的能力不是很强,验证码会识别成错误的字符,还在改进中。。。。

PS:image_to_string这个方法的打开简单的方式:使用pycharm直接按住CTRL+鼠标左键就可进入。CTRL+f,就可以弹出搜索框。