python获取p标签 python爬虫怎么取标签的文字

转载

mob6454cc649dc8 2023-08-16 19:59:46

文章标签 python获取p标签 python 爬虫 html xpath 文章分类 Python 后端开发

一、bs4解析介绍

1．bs4解析：BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。

2．HTML：用来描述网页的一种语言。

1）HTML指的是超文本标记语言 (Hyper Text Markup Language)

2）HTML 不是一种编程语言，而是一种标记语言 (markup language)

3）标记语言是一套标记标签 (markup tag)

4）HTML 使用标记标签来描述网页

3. HTML常见标签：

h1：一级标签

h2：二级标签

p：段落

body：主体

二、使用bs4解析实战爬取优美图库图片

1. 获取主页面源代码。

python获取p标签 python爬虫怎么取标签的文字_xpath

python获取p标签 python爬虫怎么取标签的文字_爬虫_02

2．定位标签，找到主页面源代码中子页面的链接位置。

python获取p标签 python爬虫怎么取标签的文字_html_03

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_04

3. 获取子页面下载链接，得到“href”。

python获取p标签 python爬虫怎么取标签的文字_python_05

python获取p标签 python爬虫怎么取标签的文字_html_06

4．子页面下载地址不全，进行子页面下载了解拼接补全。，得到完整下载链接。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_07

python获取p标签 python爬虫怎么取标签的文字_python_08

5. 获取子页面源代码。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_09

6. 从子页面获取图片下载路径。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_10

python获取p标签 python爬虫怎么取标签的文字_html_11

7. 下载图片，创建文件夹img，将下载图片存入img文件夹中，取名为下载链接最后一部分（唯一）。

python获取p标签 python爬虫怎么取标签的文字_爬虫_12

python获取p标签 python爬虫怎么取标签的文字_python_13

python获取p标签 python爬虫怎么取标签的文字_html_14

三、xpath解析介绍

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构，提供在数据结构树中找寻节点的能力。

1）XML 指可扩展标记语言（EXtensible Markup Language）

2）XML 是一种标记语言，很类似 HTML

3）XML 的设计宗旨是传输数据，而非显示数据

4）XML 标签没有被预定义。您需要自行定义标签。

5）XML 被设计为具有自我描述性。

1.xpath入门，准备一个节点示例。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_15

2. 从节点示例中找到book节点。

python获取p标签 python爬虫怎么取标签的文字_xpath_16

python获取p标签 python爬虫怎么取标签的文字_xpath_17

3. 获取节点实例中name节点下文本。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_18

python获取p标签 python爬虫怎么取标签的文字_python_19

4. 获取author节点下所有的nick节点的文本，示例中存在author节点下的nick节点以及author节点下div中的nick节点，下面将全部内容进行输出。

python获取p标签 python爬虫怎么取标签的文字_xpath_20

python获取p标签 python爬虫怎么取标签的文字_python_21

python获取p标签 python爬虫怎么取标签的文字_html_22

5.常见的命令

//：当前目录中后面所有节点

*：通配符

@：属性

[]：表示索引

[1]：第一条（xpath顺序是从1开始计算）

[@xx=’xxx’] ：表示属性的筛选

./：表示当前节点，相对查找

四、使用xpath实战爬取猪八戒网信息

获取如图中四个信息：店铺、位置、价格、标题

python获取p标签 python爬虫怎么取标签的文字_html_23

1.获取页面源代码。

python获取p标签 python爬虫怎么取标签的文字_python_24

2.使用xpath解析，找到整体源代码位置。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_25

3.寻找所需信息位置进行爬取。

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_26

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_27

python获取p标签 python爬虫怎么取标签的文字_python获取p标签_28

4.对输出结果进行整理，输出适合格式，完成猪八戒网信息获取。

python获取p标签 python爬虫怎么取标签的文字_python_29

python获取p标签 python爬虫怎么取标签的文字_爬虫_30

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql8 行锁等待脚本 mysql行锁如何实现

下一篇：JAVa代码集合框架 java集合框架总结

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯