Python+Selenium练习篇之1-摘取网页上全部邮箱

原创

凯哥Java 2021-12-28 16:39:17 ©著作权

©著作权归作者所有：来自51CTO博客作者凯哥Java的原创作品，请联系作者获取转载授权，否则将追究法律责任

前言：

“我的写文章的路线是，教程系列是一步一步教你设计Python+Selenium自动化测试框架，其中包括4个部分，基础篇，练习篇，中级篇，框架设计篇”。希望对想学自动话测试的朋友有所帮助。其中《基础篇5篇》已更新完成。现在开始更新《练习篇》

ps:

在文章末尾会有本系列教程其他文章连接。方便大家阅读

前面已经介绍了Python+Selenium基础篇，通过前面几篇文章的介绍和练习,Selenium+Python的webUI自动化测试算是入门了。接下来，我计划写第二个系列：练习篇，通过一些练习，了解和掌握一些Selenium常用的接口或者方法。

练习场景：在某一个网页上有些字段是我们感兴趣的，我们希望摘取出来，进行其他操作。但是这些字段可能在一个网页的不同地方。例如，我们需要在关于百度页面-联系我们，摘取全部的邮箱。

Python+Selenium练习篇之1-摘取网页上全部邮箱_自动化测试

思路拆分：

1. 首先，需要得到当前页面的source内容，就像，打开一个页面，右键-查看页面源代码。

2. 找出规律，通过正则表达式去摘取匹配的字段，存储到一个字典或者列表。

3. 循环打印字典或列表中内容，Python中用 for 语句实现。

技术角度实现相关方法：

1. 查看页面的源代码，在Selenium中有driver.page_source 这个方法得到

2. Python中利用正则，需要导入re模块

3. for email in emails :

print email

想法技术角度方法都找到，我们新建一个extract_email.py 文件，输入如下代码:

# coding=utf-8

from selenium import webdriver

import re

driver = webdriver.Chrome()

driver.maximize_window()

driver.implicitly_wait(6)

driver.get("http://home.baidu.com/contact.html")

# 得到页面源代码

doc = driver.page_source

emails = re.findall(r'[\w]+@[\w\.-]+',doc) # 利用正则，找出 xxx@xxx.xxx 的字段，保存到emails列表

# 循环打印匹配的邮箱

for email in emails:

print (email)

Python+Selenium练习篇之1-摘取网页上全部邮箱_自动化测试_02

解释：

在python正则表达式语法中，Python中字符串前面加上 r 表示原生字符串，用\w表示匹配字母数字及下划线。re模块下findall方法返回的是一个匹配子字符串的列表。

运行结果：

Python+Selenium练习篇之1-摘取网页上全部邮箱_自动化测试_03

ps:

注：如果发现文章不是连续性的。因发布被审核不通过所以发表不了。请看ps内容

ps：

欢迎关注凯哥微信公众号：凯哥Java

上一篇：Java中注解学习系列教材-1

下一篇：Python+Selenium练习篇之9-清除文本方法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯