目录
1、什么是爬虫
2、如何实现
一、什么是爬虫,爬虫是获取信息的一种方式
大家都应该多多少少听说过’爬虫‘一词,但并不是很了解。今天有我给大家分享一下我多爬虫的理解。首先,我们先说一下浏览器的使用和访问过程。我们在使用浏览器访问时浏览器一方发出请求,服务器把你想浏览的网页的代码文件发送给浏览器,之后浏览器解析成可视化的网页,获取信息。我为什么说这个,因为’爬虫‘爬取的过程跟这个流程可以说’一样‘,请求网页代码文件,在代码文件中寻找我们想要的信息,以文字形式直接显示出来。
举个例子,我们想获取百度首页的热搜信息,用浏览器的方式是:浏览器向服务器请求,返回网页代码,浏览器解析呈现出这样
让用户去看今天热搜有什么。而爬虫则是在返回的网页代码中直接获取热搜内容。
这就是爬虫。
二、如何实现,只讲学习方向不细讲具体实现
前面讲过爬虫与浏览器过程差不多,获得网页代码,获取信息。
1、获得网页代码requests库获取
2、获取信息有两种方式一种是,re库,例如,找出以“以中国”开始以“条件”结束的句子。另一种,beautifulsoup4库,以标签的形式获取信息,获取<div></div>标签中的内容“缩进”。