python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容

转载

laojean 2024-03-05 18:52:50

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_让div不占位置

现今网络资源发达，其中数据就是一个重要的网络资产。而Python对于爬取网络数据的库很多，其中requests是一个非常人性化的HTTP客户端库。今天我们就用他来快速列出当天的热点事件和对应的热度指数。

安装相关库

pip install requestspip install bs4

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_网页内容_02

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_网页内容_03

首先要确定的是，我们要从哪个网页中获取当天的热点事件。本文选取某度的今日热点，如上图。数据就在右边红框的表格中。

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_网页内容_04

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_网页内容_05

按照上图的代码行号来说明

(#15) 调用方法requests.get(),获取网页内容，输入了一个请求参数b=341。headers其实不需要指定也可以的
(#16) requests会自动根据服务器返回的指定编码做处理，但很多时候是错误，比如这里，实际上编码是gbk，但网页返回的只是iso-xxx。因此这里指定我们需要的编码
(#18) 调用rp.text即可获取网页内容。然后实例化一个 BeautifulSoup对象，实例化时传入网页内容即可
(#22-24) 通过BeautifulSoup对象的方法find可以方便找出某个标签。这里的查找逻辑于上面的位置分析一样。注意一点是，通过tbs('tr')可以直接列出一个table下的所有的tr标签
(#26) 之前说过，第一行是标题，我们不需要，所以用 rows[1:] 跳过第一行
(#27-32) 在遍历中的 r，就是每一行了，因此通过 r('td') 就是行中的所有的td，r('td')[0] 相当于这行中的第一个列

下面就是结果

python爬取图片时怎么用xpath解析多层嵌套div标签的img标签下的src内容 python爬取div内容_网页内容_06

requests.get()，获取网页内容
requests.get()返回的对象的encoding用于调整返回text的编码
BeautifulSoup对象用于方便解析html结构。其中find方法查找第一个符合条件的标签，直接使用tag('tr') 相当于调用方法 find_all,找出多个符合条件的标签