Py之Beautiful Soup 4.2.0：Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

原创

一个处女座的程序猿 2022-04-22 15:21:25 ©著作权

文章标签 html xml python 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者一个处女座的程序猿的原创作品，请联系作者获取转载授权，否则将追究法律责任

Beautiful Soup 4.2.0的简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。

如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:

$ apt-get install Python-bs4

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4

1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacré bleu!")

<html><head></head><body>Sacré bleu!</body></html>

然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考解析成XML ).

Py之Beautiful Soup 4.2.0：Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略_html

2、BeautifulSoup包功能比正则表达式很多，且要简洁明白一些。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:　Tag、NavigableString、BeautifulSoup、Comment 。　　

Tag: 即我们在写网页时所使用的标签（如<a>超链接标签）　　

NavigableString：简单的说就是一种可以遍历的字符串

这两个库主要是解析html/xml文档，BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、 Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。

Beautiful Sou和Lxml是两个非常流行的python模块，他们常被用来对抓取到的网页进行解析，以便进一步抓取的进行。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯