目录

1、什么是爬虫

2、如何实现

一、什么是爬虫,爬虫是获取信息的一种方式

大家都应该多多少少听说过’爬虫‘一词,但并不是很了解。今天有我给大家分享一下我多爬虫的理解。首先,我们先说一下浏览器的使用和访问过程。我们在使用浏览器访问时浏览器一方发出请求,服务器把你想浏览的网页的代码文件发送给浏览器,之后浏览器解析成可视化的网页,获取信息。我为什么说这个,因为’爬虫‘爬取的过程跟这个流程可以说’一样‘,请求网页代码文件,在代码文件中寻找我们想要的信息,以文字形式直接显示出来。

Python爬虫学习框架_python爬虫

Python爬虫学习框架_python爬虫_02

举个例子,我们想获取百度首页的热搜信息,用浏览器的方式是:浏览器向服务器请求,返回网页代码,浏览器解析呈现出这样

Python爬虫学习框架_python爬虫_03

让用户去看今天热搜有什么。而爬虫则是在返回的网页代码中直接获取热搜内容。

Python爬虫学习框架_python爬虫_04

这就是爬虫。

二、如何实现,只讲学习方向不细讲具体实现

前面讲过爬虫与浏览器过程差不多,获得网页代码获取信息。

1、获得网页代码requests库获取

2、获取信息有两种方式一种是,re库,例如,找出以“以中国”开始以“条件”结束的句子。另一种,beautifulsoup4库,以标签的形式获取信息,获取<div></div>标签中的内容“缩进”。

Python爬虫学习框架_python爬虫_05