使用selenium爬取网页数据
一、安装环境
1.安装selenium
2.配置ChromeDriver
- 点击Google菜单 帮助 -> 关于Google Chrome -> 查看版本号
- 对比自己浏览器版本下载相应版本的ChromeDriver:下载地址
- 解压后把文件放到 python的script目录下:我的是在D盘下的python中
- 最后需要配置环境变量
二、测试
from selenium import webdriver
driver= webdriver.Chrome()
driver.maximize_window()
driver.implicitly_wait(3)#等待3秒
driver.get("https://baidu.com")
driver.quit()
如果能成功打开网页则说明环境配置成功。
三、爬取微博热门话题
爬取网页:
爬取数据:
从网页页面来看每页有15条数数据,有7页,那么就有105条数据,我们先一步一步来。
F12:
我所画出的部分应该是数据所在处,我们就从WB_innerwrap开始确定我们需要数据所在的标签。
# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
print("元素未找到")
driver.quit()
报错:
如果找到了元素,结果不会报错,如果没有找到元素会输出“元素未找到”。两者都没有,运行后,浏览器能正常打开(如下图);
就那么几行代码,代码没有报错,那么问题出在哪里?
在我们运行后,网页不是立马就能打开,那么如果我们能让网页加载完毕后再去定位元素,会不会成功呢?
更新代码:为什么让它睡4s呢?可能每个人在这里设置的时间不同,我从1s开始测试,只有4s的时候最快。(也许网速快慢觉得睡眠时间长短)
# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time
# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
#
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
print("元素未找到")
driver.quit()
结果:
首先爬取排名:Top1、Top2…
# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time
# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
#
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
print("元素未找到")
driver.quit()
for e in element.find_elements_by_tag_name("li"):
no = e.find_element_by_tag_name("span")
print(no.text)
同理获取标题、内容、阅读数:
title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
我们这里使用try…except
for e in element.find_elements_by_tag_name("li"):
try:
no = e.find_element_by_tag_name("span")
title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
except:
continue
为了让爬取的数据更直观,我们将数据写入一个文本文件。
代码如下:
# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time
# 创建一个driver
driver = Chrome()
# 将获取的数据写入data
data = open("./data.txt", "w")
# 请求
driver.get("https://d.weibo.com/231650")
# 给网页一个加载时间 4s
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
if not element:
print("元素未找到")
driver.quit()
for e in element.find_elements_by_tag_name("li"):
try:
# 排名
no = e.find_element_by_tag_name("span")
data.write("{}:{}".format("热度", no.text))
# 题目
title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
data.write(" {}:{}\n".format("标题", title.text))
# 简介
content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
data.write("{}{}\n".format("", content.text))
# 阅读量
num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
data.write("{}{}\n".format("", num.text))
data.write("\n")
except:
continue
# 关闭文件和浏览器
data.close()
driver.quit()
print("完成!")
这只是一页的数据,我们如果要获取7页的数据该这么做呢?
我们在浏览网页的时候,是需要点击下一页即可,那当我们获取到了下一页的标签,再加上个click(),是不是就能实现自动点击下一页的操作。
next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
print(next_page.text)
结果:
接下来我们只要用while循环就可以实现自动翻下一页了
while True:
# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
if not element:
print("元素未找到")
driver.quit()
for e in element.find_elements_by_tag_name("li"):
try:
# 排名
no = e.find_element_by_tag_name("span")
data.write("{}:{}".format("热度", no.text))
# 题目
title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
data.write(" {}:{}\n".format("标题", title.text))
# 简介
content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
data.write("{}{}\n".format("", content.text))
# 阅读量
num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
data.write("{}{}\n".format("", num.text))
data.write("\n")
except:
continue
try:
# 下一页
next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
except:
break
else:
# 点击
next_page.click()
为了确保在写入文本文件时数据的准确性,我们使用print输出我们需要爬取的数据。
这里只用输出no即可
可以看出,结果很乱,如果就这样的数据写入文本文档中去,肯定是不行的,而且这个while停不下来。
当我再次使用F12检查网页的时候,发现第7页所对应的“下一页”标签改变了!从输出结果来看,它是一直重复点击第7页。
这里我想手动控制循环次数:
i = 7
# 定位元素
while i:
# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_cla
.
.
.
else:
# 点击
next_page.click()
i = i-1
从结果来看,循环已经不是死循环了,但是输出的数据是有问题的。按道理来说输出结果应该是:Top1、Top2、Top3、4、…105。
后来我观看了运行程序跳出的网页点击“下一页”的速度很快,也就是说,点击了6次,也循环了6次,但是整个过程的时间太快了,倒置输出这样的结果。
那我又想到了让它睡个几秒再看看结果:
# 点击
next_page.click()
time.sleep(3)
i = i-1
问题解决
写入文本文件:
数据105条正确无误。