爬虫框架java 爬虫框架beautifulsoup

转载

mob64ca13f2b62d 2023-10-10 10:50:26

文章标签 爬虫框架java python 网络爬虫 HTML 迭代 文章分类 Java 后端开发

Python网络爬虫之BeautifulSoup库

BeautifulSoup是Python的第三方库，可以对HTML和XML格式的内容进行解析，并且提取其中的相关信息。BS可以对被提供的任何格式的内容进行爬取，并且进行树形解析。

1.BeautifulSoup库的安装

它的安装也可以利用pip命令。首先使用管理员权限启动cmd命令台，然后使用以下命令进行安装。

pip install beautifulsoup

如果提示安装错误，请检查在Python的安装中是否允许了pip插件，具体内容可以参照这篇关于Python安装的讲解。

2.BeautifulSoup库的基本元素

Beautifulsoup库（bs4库）是维护、遍历、解析HTML标签树的功能库,其中BeautifulSoup类是bs4库中最基本的类。
学习bs4库的基本功能前，我们首先要仔细了解BeautifulSoup类的基本元素，方便以后更高效的使用bs4库。

名称	说明
Tag	标签，最基本的信息组织单元，分别用`<>`和`</>`标明开头和结尾，与HTML内标签对应
Name	标签的名字，`<>……</p>`的名字是‘p’，可以用`<tag>.name`获取标签名字
Attributes	标签的属性，字典形式组织，可以用`<tag>.attrs`获取标签属性
NavigableString	标签内非属性字符串，`<>……</>`中字符串，可以用`<tag>.string`获取标内字符串
Comment	标签内字符串的注释部分，一种特殊的Comment类型

3.网页解析器的种类

网页内容有很多格式，对应也有很多的解析器，对网页内容进行解析。目前通用的有以下这些。

名称	实例
bs4的HTML解析器	BeautifulSoup(mk,’html.parser’)
lxml的HTML解析器	BaeutifulSoup(mk,’lxml’)
lxml的XML解析器	BeautifulSoup(mk,’xml’)
html5lib的解析器	BeautifulSoup(mk,’html5lib’)

*表格中第一项要在安装BeautifulSoup库之后使用，第2、3项要在pip install lxml后使用，最后一项则需要在pip install html5lib后使用

4.BeautifulSoup库的遍历功能

HTML网页是由标签构成的树形结构，如果需要提取和分析网页的内容，必须要能够对标签树结构进行遍历，这样才能完整获得标签树中的内容。

爬虫框架java 爬虫框架beautifulsoup_爬虫框架java

根据HTML标签树的基本格式，如果想遍历所有内容，大致有三种路线：

下行遍历：由父亲节点向儿子节点和子孙节点遍历
上行遍历：由子孙节点向父亲节点遍历
平行遍历：在同一个父亲节点下，向同一级节点遍历

4.1 下行遍历

下行遍历方式中，bs4库提供以下3种属性：

属性	说明
`<tag>.contents`	子节点的列表，将`<tag>`所有儿子节点存入列表
`<tag>.children`	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
`<tag>.descendants`	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

下面通过代码示例进行演示：[github code]

4.2 上行遍历

上行遍历方式中，bs4库提供以下2种属性：

属性	说明
`<tag>.parent`	节点的父亲标签
`<tag>.parents`	节点先辈标签的迭代类型，用于循环遍历先辈节点

下面通过代码示例进行演示：[github code]

4.3平行遍历

平行遍历方式中，bs4库提供以下4种属性：

属性	说明
`<tag>.parent`	节点的父亲标签
`<tag>.parents`	节点先辈标签的迭代类型，用于循环遍历先辈节点
`<tag>.next_siblings`	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
`<tag>.previous_siblings`	迭代类型，返回按照HTML文本顺序的前序所有平行节点标签

下面通过代码示例进行演示：[github code]

5.基于bs4库的显示和编码

为了让HTML页面的内容更加友好的显示，bs4库提供prettify()方法进行相关的处理，在实际调试中将为用户提供很多方便。

html=requests.get(url)
soup=BeautifulSoup(html,'html.parser')
print(soup.prettify())

同时，bs4库将所有内容都采用UTF-8编码进行编码，UTF-8可以很好的支持中文等语言显示。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android 属性动画卡顿 github Android 属性动画卡顿原理

下一篇：企微机器人消息java 企业微信机器人助手app

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯