初识Python爬虫之Beautifulsoup入门与介绍①

原创

码上开始 2022-02-21 16:21:52 ©著作权

文章标签 python 爬虫 Beautifulsoup 搜索引擎数据 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者码上开始的原创作品，请联系作者获取转载授权，否则将追究法律责任

初识Python爬虫之Beautifulsoup

什么是爬虫
爬虫的本质
爬虫有什么用
学习爬虫需要的基础知识
如何学习爬虫
爬虫注意

什么是爬虫

很多学习完Python基础小伙伴，不知道要继续学些什么内容。学习完Python之后可以进行自动化、运维、大数据测试，人工智能，爬虫

经常访问网络的朋友可能需要打开各种各样的网页。网页与网页、网页内部之间的相互连接都是通过一种叫做超链接的东西进行关联的，这种超链接，专业术语叫做统一资源定位符，英文缩写为url，也就是我们常说的网址。用户通过在浏览器中输入url向服务器访问请求，使用的是一种叫做http或者https协议的固定通信格式来获取或者发送数据。

我们可以把互联网想象为一个巨大的蜘蛛网络，如下图所示：

初识Python爬虫之Beautifulsoup入门与介绍①_搜索引擎

可以把每个网页看作这个网络中的节点，url看作节点间一条条的线。通过其中的某一个节点，以及与之关联的url，递归调用，就能实现访问网络中的所有资源。事实上，用户在使用搜索引擎抓取信息时，使用的原理本质与这个相同，只不过搜索引擎会借助一些强大的算法，比如PageRank等算法对不同的链接进行不同的加权处理，不然以当前互联网的容量，搜索引擎的服务器也受不了。根据权威部门统计，目前搜索引擎能够访问的网页量占总比不到60%，也就是说有超过40%的网页处于暗网之中，除了专门访问，在无墙的状态下，外界也无法访问到。