selenium提取数据

知识点:
了解driver对象的常用属性和方法
掌握driver对象定位标签元素获取标签对象的方法
掌握标签对象提取文本和属性值的方法

driver对象的常用属性和方法

在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法

1.driver.page_source当前标签页浏览器渲染之后的网页源代码
2.driver.current_url当前标签页的url
3.driver.close()关闭当前标签页,如果只有一个标签页则关闭整个浏览器
4.driver.quit()关闭浏览器
5.driver.forward()页面前进
6.driver.back()页面后退
7.driver.screen_shot(img_name)页面截图

driver对象定位标签元素获取标签对象的方法

在selenium中可以通过多种方式来定位标签,返回标签元素对象

find_element_by._id(返回一个元素)
find_element(s)_by_class_name(根据类名获取元素列表)
find_element(s)_by_name(根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)by_xpath(返回一个包含元素的列表)
find_element(s)_by_link_text(根据连接文本获取元素列表)
find_element(s)_by_partial_link_text(根据链接包含的文本获取元素列表)
find_element(s)_by_tag-name(根据标签名获取元素列表)
find_element(s)_by_css(根据css选择器来获取元素列表)

#coding:utf-8
from selenium import webdriver

# 1.创建浏览器对象
driver = webdriver.Chrome()

# 2.操作浏览器对象
driver.get('http://www.baidu.com')

# 2.定位元素
driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python37')
driver.find_element_by_id('kw').send_keys('python37')
driver.find_element_by_name('wd').send_keys('python37')
# 通过class属性值进行元素定位
driver.find_element_by_class_name('s_ipt').send_keys('python37')
driver.find_element_by_css_selector('#kw').send_keys('python37')
driver.find_element_by_xpath('//*[@id="su"]').click()

print(driver.find_element_by_tag_name('title'))

# 通过含有链接的完整文本内容进行元素定位   链接文本(链接和文本在同一个标签中)
driver.find_element_by_link_text('hao123').click()
driver.find_element_by_partial_link_text('hao').click()

find_element_by_xxx 定位到则是一个对象
定位不到则报错

find_elements_by_xxx 定位到则是一个含有元素的列表
定位不到则是一个空列表

标签对象提取文本内容和属性值

find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法

  • 对元素执行点击操作element.click() 对定位到的标签对象进行点击操作
  • 向输入框输入数据element.send_keys(data) 对定位到的标签对象输入数据
  • 获取文本element.text 通过定位获取的标签对象的text属性,获取文本内容
  • 获取属性值element.get_attribute("属性名") 通过定位获取的标签对象的get_attribute函数,传入属性名,来获取属性的值
#coding:utf-8
from selenium import webdriver


# 1.创建浏览器对象
driver = webdriver.Chrome()

# 2.操作浏览器对象
driver.get('https://lfyanjiao.58.com/hezu/?PGTID=0d100000-0320-44c6-c018-2374633dc940&ClickID=2')

#返回一个列表
el_list = driver.find_elements_by_xpath('/html/body/div[5]/div/div[5]/div[2]/ul/li/div[2]/h2/a')

# print(len(el_list))
# print(el_list)

for el in el_list:
    print(el.text,el.get_attribute('href'))


# el.send_keys(data), 该元素必须能够接受数据 input/text
# el.click()    该元素必须能够接受点击操作