使用selenium爬取网页数据

一、安装环境

1.安装selenium

selenium python中获取文本内容 selenium获取页面文本_Chrome

2.配置ChromeDriver
  • 点击Google菜单 帮助 -> 关于Google Chrome -> 查看版本号
  • 对比自己浏览器版本下载相应版本的ChromeDriver:下载地址
  • 解压后把文件放到 python的script目录下:我的是在D盘下的python中
  • 最后需要配置环境变量

selenium python中获取文本内容 selenium获取页面文本_Chrome_02

二、测试

from selenium import webdriver
 
driver= webdriver.Chrome()
driver.maximize_window()
 
driver.implicitly_wait(3)#等待3秒
 
 
driver.get("https://baidu.com")
driver.quit()

如果能成功打开网页则说明环境配置成功。

三、爬取微博热门话题

爬取网页:

selenium python中获取文本内容 selenium获取页面文本_数据_03

爬取数据:

selenium python中获取文本内容 selenium获取页面文本_python_04

从网页页面来看每页有15条数数据,有7页,那么就有105条数据,我们先一步一步来。

F12:

selenium python中获取文本内容 selenium获取页面文本_python_05

我所画出的部分应该是数据所在处,我们就从WB_innerwrap开始确定我们需要数据所在的标签。

selenium python中获取文本内容 selenium获取页面文本_文本文件_06

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

报错:

selenium python中获取文本内容 selenium获取页面文本_python_07

如果找到了元素,结果不会报错,如果没有找到元素会输出“元素未找到”。两者都没有,运行后,浏览器能正常打开(如下图);

selenium python中获取文本内容 selenium获取页面文本_数据_08

就那么几行代码,代码没有报错,那么问题出在哪里?

在我们运行后,网页不是立马就能打开,那么如果我们能让网页加载完毕后再去定位元素,会不会成功呢?

更新代码:为什么让它睡4s呢?可能每个人在这里设置的时间不同,我从1s开始测试,只有4s的时候最快。(也许网速快慢觉得睡眠时间长短)

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

结果:

selenium python中获取文本内容 selenium获取页面文本_Chrome_09

首先爬取排名:Top1、Top2…

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
#
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    no = e.find_element_by_tag_name("span")
    print(no.text)

selenium python中获取文本内容 selenium获取页面文本_python_10

同理获取标题、内容、阅读数:

title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
    content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
    num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")

我们这里使用try…except

for e in element.find_elements_by_tag_name("li"):
    try:
        no = e.find_element_by_tag_name("span")
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
    except:
        continue

为了让爬取的数据更直观,我们将数据写入一个文本文件。

代码如下:

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 将获取的数据写入data
data = open("./data.txt", "w")
# 请求
driver.get("https://d.weibo.com/231650")
# 给网页一个加载时间 4s
time.sleep(4)


# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    try:
        # 排名
        no = e.find_element_by_tag_name("span")
        data.write("{}:{}".format("热度", no.text))
        # 题目
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        data.write(" {}:{}\n".format("标题", title.text))
        # 简介
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        data.write("{}{}\n".format("", content.text))
        # 阅读量
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
        data.write("{}{}\n".format("", num.text))
        data.write("\n")
    except:
        continue

# 关闭文件和浏览器
data.close()
driver.quit()
print("完成!")

selenium python中获取文本内容 selenium获取页面文本_Chrome_11

这只是一页的数据,我们如果要获取7页的数据该这么做呢?

我们在浏览网页的时候,是需要点击下一页即可,那当我们获取到了下一页的标签,再加上个click(),是不是就能实现自动点击下一页的操作。

selenium python中获取文本内容 selenium获取页面文本_Chrome_12

next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
print(next_page.text)

结果:

selenium python中获取文本内容 selenium获取页面文本_Chrome_13

接下来我们只要用while循环就可以实现自动翻下一页了

while True:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
    if not element:
        print("元素未找到")
        driver.quit()

    for e in element.find_elements_by_tag_name("li"):
        try:
            # 排名
            no = e.find_element_by_tag_name("span")
            data.write("{}:{}".format("热度", no.text))
            # 题目
            title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
            data.write(" {}:{}\n".format("标题", title.text))
            # 简介
            content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
            data.write("{}{}\n".format("", content.text))
            # 阅读量
            num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
            data.write("{}{}\n".format("", num.text))
            data.write("\n")
        except:
            continue

    try:
        # 下一页
        next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
    except:
        break
    else:
        # 点击
        next_page.click()

为了确保在写入文本文件时数据的准确性,我们使用print输出我们需要爬取的数据。

这里只用输出no即可

selenium python中获取文本内容 selenium获取页面文本_文本文件_14

可以看出,结果很乱,如果就这样的数据写入文本文档中去,肯定是不行的,而且这个while停不下来。

selenium python中获取文本内容 selenium获取页面文本_Chrome_15

当我再次使用F12检查网页的时候,发现第7页所对应的“下一页”标签改变了!从输出结果来看,它是一直重复点击第7页。

selenium python中获取文本内容 selenium获取页面文本_数据_16

这里我想手动控制循环次数:

i = 7
# 定位元素
while i:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_cla
    .
    .
    .
    else:
        # 点击
        next_page.click()
        i = i-1

从结果来看,循环已经不是死循环了,但是输出的数据是有问题的。按道理来说输出结果应该是:Top1、Top2、Top3、4、…105。

selenium python中获取文本内容 selenium获取页面文本_Chrome_17

后来我观看了运行程序跳出的网页点击“下一页”的速度很快,也就是说,点击了6次,也循环了6次,但是整个过程的时间太快了,倒置输出这样的结果。

那我又想到了让它睡个几秒再看看结果:

# 点击
next_page.click()
time.sleep(3)
i = i-1

问题解决

selenium python中获取文本内容 selenium获取页面文本_数据_18

写入文本文件:

selenium python中获取文本内容 selenium获取页面文本_文本文件_19


数据105条正确无误。