selenium提取数据
知识点:
了解driver对象的常用属性和方法
掌握driver对象定位标签元素获取标签对象的方法
掌握标签对象提取文本和属性值的方法
driver对象的常用属性和方法
在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法
1.driver.page_source
当前标签页浏览器渲染之后的网页源代码
2.driver.current_url
当前标签页的url
3.driver.close()
关闭当前标签页,如果只有一个标签页则关闭整个浏览器
4.driver.quit()
关闭浏览器
5.driver.forward()
页面前进
6.driver.back()
页面后退
7.driver.screen_shot(img_name)
页面截图
driver对象定位标签元素获取标签对象的方法
在selenium中可以通过多种方式来定位标签,返回标签元素对象
find_element_by._id
(返回一个元素)find_element(s)_by_class_name
(根据类名获取元素列表)find_element(s)_by_name
(根据标签的name属性值返回包含标签对象元素的列表)find_element(s)by_xpath
(返回一个包含元素的列表)find_element(s)_by_link_text
(根据连接文本获取元素列表)find_element(s)_by_partial_link_text
(根据链接包含的文本获取元素列表)find_element(s)_by_tag-name
(根据标签名获取元素列表)find_element(s)_by_css
(根据css选择器来获取元素列表)
例
#coding:utf-8
from selenium import webdriver
# 1.创建浏览器对象
driver = webdriver.Chrome()
# 2.操作浏览器对象
driver.get('http://www.baidu.com')
# 2.定位元素
driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python37')
driver.find_element_by_id('kw').send_keys('python37')
driver.find_element_by_name('wd').send_keys('python37')
# 通过class属性值进行元素定位
driver.find_element_by_class_name('s_ipt').send_keys('python37')
driver.find_element_by_css_selector('#kw').send_keys('python37')
driver.find_element_by_xpath('//*[@id="su"]').click()
print(driver.find_element_by_tag_name('title'))
# 通过含有链接的完整文本内容进行元素定位 链接文本(链接和文本在同一个标签中)
driver.find_element_by_link_text('hao123').click()
driver.find_element_by_partial_link_text('hao').click()
find_element_by_xxx
定位到则是一个对象
定位不到则报错
find_elements_by_xxx
定位到则是一个含有元素的列表
定位不到则是一个空列表
标签对象提取文本内容和属性值
find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法
- 对元素执行点击操作
element.click()
对定位到的标签对象进行点击操作 - 向输入框输入数据
element.send_keys(data)
对定位到的标签对象输入数据 - 获取文本
element.text
通过定位获取的标签对象的text
属性,获取文本内容 - 获取属性值
element.get_attribute("属性名")
通过定位获取的标签对象的get_attribute
函数,传入属性名,来获取属性的值
#coding:utf-8
from selenium import webdriver
# 1.创建浏览器对象
driver = webdriver.Chrome()
# 2.操作浏览器对象
driver.get('https://lfyanjiao.58.com/hezu/?PGTID=0d100000-0320-44c6-c018-2374633dc940&ClickID=2')
#返回一个列表
el_list = driver.find_elements_by_xpath('/html/body/div[5]/div/div[5]/div[2]/ul/li/div[2]/h2/a')
# print(len(el_list))
# print(el_list)
for el in el_list:
print(el.text,el.get_attribute('href'))
# el.send_keys(data), 该元素必须能够接受数据 input/text
# el.click() 该元素必须能够接受点击操作