selenium python中获取文本内容 selenium获取页面文本

转载

mob64ca1406d617 2024-02-08 06:37:01

文章标签 python selenium 数据 Chrome 文本文件 文章分类 Python 后端开发

使用selenium爬取网页数据

一、安装环境

1.安装selenium

selenium python中获取文本内容 selenium获取页面文本_python

2.配置ChromeDriver

点击Google菜单帮助 -> 关于Google Chrome -> 查看版本号
对比自己浏览器版本下载相应版本的ChromeDriver：下载地址
解压后把文件放到 python的script目录下：我的是在D盘下的python中
最后需要配置环境变量

selenium python中获取文本内容 selenium获取页面文本_Chrome_02

二、测试

from selenium import webdriver
 
driver= webdriver.Chrome()
driver.maximize_window()
 
driver.implicitly_wait(3)#等待3秒
 
 
driver.get("https://baidu.com")
driver.quit()

如果能成功打开网页则说明环境配置成功。

三、爬取微博热门话题

爬取网页：

selenium python中获取文本内容 selenium获取页面文本_selenium_03

爬取数据：

selenium python中获取文本内容 selenium获取页面文本_selenium_04

从网页页面来看每页有15条数数据，有7页，那么就有105条数据，我们先一步一步来。

F12：

selenium python中获取文本内容 selenium获取页面文本_python_05

我所画出的部分应该是数据所在处，我们就从WB_innerwrap开始确定我们需要数据所在的标签。

selenium python中获取文本内容 selenium获取页面文本_selenium_06

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

报错：

selenium python中获取文本内容 selenium获取页面文本_selenium_07

如果找到了元素，结果不会报错，如果没有找到元素会输出“元素未找到”。两者都没有，运行后，浏览器能正常打开（如下图）；

selenium python中获取文本内容 selenium获取页面文本_python_08

就那么几行代码，代码没有报错，那么问题出在哪里？

在我们运行后，网页不是立马就能打开，那么如果我们能让网页加载完毕后再去定位元素，会不会成功呢？

更新代码：为什么让它睡4s呢？可能每个人在这里设置的时间不同，我从1s开始测试，只有4s的时候最快。（也许网速快慢觉得睡眠时间长短）

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
# 
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

结果：

selenium python中获取文本内容 selenium获取页面文本_Chrome_09

首先爬取排名：Top1、Top2…

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 请求
driver.get("https://d.weibo.com/231650")
#
time.sleep(4)
# 定位元素
element = driver.find_element_by_class_name("m_wrap.clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    no = e.find_element_by_tag_name("span")
    print(no.text)

selenium python中获取文本内容 selenium获取页面文本_数据_10

同理获取标题、内容、阅读数：

title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
    content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
    num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")

我们这里使用try…except

for e in element.find_elements_by_tag_name("li"):
    try:
        no = e.find_element_by_tag_name("span")
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
    except:
        continue

为了让爬取的数据更直观，我们将数据写入一个文本文件。

代码如下：

# 导入相关依赖
import selenium
from selenium.webdriver import Chrome
import time

# 创建一个driver
driver = Chrome()
# 将获取的数据写入data
data = open("./data.txt", "w")
# 请求
driver.get("https://d.weibo.com/231650")
# 给网页一个加载时间 4s
time.sleep(4)


# 定位元素
element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
if not element:
    print("元素未找到")
    driver.quit()

for e in element.find_elements_by_tag_name("li"):
    try:
        # 排名
        no = e.find_element_by_tag_name("span")
        data.write("{}:{}".format("热度", no.text))
        # 题目
        title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
        data.write(" {}:{}\n".format("标题", title.text))
        # 简介
        content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
        data.write("{}{}\n".format("", content.text))
        # 阅读量
        num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
        data.write("{}{}\n".format("", num.text))
        data.write("\n")
    except:
        continue

# 关闭文件和浏览器
data.close()
driver.quit()
print("完成！")

selenium python中获取文本内容 selenium获取页面文本_python_11

这只是一页的数据，我们如果要获取7页的数据该这么做呢？

我们在浏览网页的时候，是需要点击下一页即可，那当我们获取到了下一页的标签，再加上个click()，是不是就能实现自动点击下一页的操作。

selenium python中获取文本内容 selenium获取页面文本_selenium_12

next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
print(next_page.text)

结果：

selenium python中获取文本内容 selenium获取页面文本_Chrome_13

接下来我们只要用while循环就可以实现自动翻下一页了

while True:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_class_name("clearfix")
    if not element:
        print("元素未找到")
        driver.quit()

    for e in element.find_elements_by_tag_name("li"):
        try:
            # 排名
            no = e.find_element_by_tag_name("span")
            data.write("{}:{}".format("热度", no.text))
            # 题目
            title = e.find_element_by_class_name("text_box").find_element_by_tag_name("a")
            data.write(" {}:{}\n".format("标题", title.text))
            # 简介
            content = e.find_element_by_class_name("text_box").find_element_by_class_name("subtitle")
            data.write("{}{}\n".format("", content.text))
            # 阅读量
            num = e.find_element_by_class_name("W_fl").find_element_by_tag_name("span")
            data.write("{}{}\n".format("", num.text))
            data.write("\n")
        except:
            continue

    try:
        # 下一页
        next_page = driver.find_element_by_tag_name("a.page.next.S_txt1.S_line1")
    except:
        break
    else:
        # 点击
        next_page.click()

为了确保在写入文本文件时数据的准确性，我们使用print输出我们需要爬取的数据。

这里只用输出no即可

selenium python中获取文本内容 selenium获取页面文本_文本文件_14

可以看出，结果很乱，如果就这样的数据写入文本文档中去，肯定是不行的，而且这个while停不下来。

selenium python中获取文本内容 selenium获取页面文本_Chrome_15

当我再次使用F12检查网页的时候，发现第7页所对应的“下一页”标签改变了！从输出结果来看，它是一直重复点击第7页。

selenium python中获取文本内容 selenium获取页面文本_python_16

这里我想手动控制循环次数：

i = 7
# 定位元素
while i:
    # 定位元素
    element = driver.find_element_by_class_name("WB_innerwrap").find_element_by_cla
    .
    .
    .
    else:
        # 点击
        next_page.click()
        i = i-1

从结果来看，循环已经不是死循环了，但是输出的数据是有问题的。按道理来说输出结果应该是：Top1、Top2、Top3、4、…105。

selenium python中获取文本内容 selenium获取页面文本_文本文件_17

后来我观看了运行程序跳出的网页点击“下一页”的速度很快，也就是说，点击了6次，也循环了6次，但是整个过程的时间太快了，倒置输出这样的结果。

那我又想到了让它睡个几秒再看看结果：

# 点击
next_page.click()
time.sleep(3)
i = i-1

问题解决

selenium python中获取文本内容 selenium获取页面文本_数据_18

写入文本文件：

selenium python中获取文本内容 selenium获取页面文本_python_19

数据105条正确无误。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android指定语言打包安卓语音打包软件

下一篇：wireshark排查网络风暴源头查看网络风暴的命令

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯