爬虫的本质就是模仿人类自动访问网站的程序,你在浏览器中做的大部分动作基本都可以通过网络爬虫程序来实现。
网络爬虫指的是能够自动化访问网站的程序,其目的一般是提取和保存网页信息。
爬虫能做很多事,它结合数据分析可以做商业分析,还可以给应用程序的开发提供数据支持,比如:爬二手房成交均价是多少?节日期间酒店的价格…等等。
在数据量爆发式增长的互联网时代,网站与用户的沟通,本质上就是数据的交换。以百度为例,你在搜索的时候会发现每个搜索结果下面都有一个百度快照。
点击百度快照,你会发现网址的开头有 baidu这个词,也就是说这个网页属于百度。
1. 网络爬虫的定义
1.1 爬虫是什么?
爬虫的本质就是模仿人类自动访问网站的程序,你在浏览器中做的大部分动作基本都可以通过网络爬虫程序来实现。
网络爬虫指的是能够自动化访问网站的程序,其目的一般是提取和保存网页信息。
爬虫能做很多事,它结合数据分析可以做商业分析,还可以给应用程序的开发提供数据支持,比如:爬二手房成交均价是多少?节日期间酒店的价格…等等。
在数据量爆发式增长的互联网时代,网站与用户的沟通,本质上就是数据的交换。以百度为例,你在搜索的时候会发现每个搜索结果下面都有一个百度快照。
点击百度快照,你会发现网址的开头有 baidu 这个词,也就是说这个网页属于百度。
这是因为,百度这家公司会源源不断地把千千万万个网站爬取下来,存储在自己的服务器上。
你在百度搜索的本质就是在它的服务器上搜索信息,你搜索到的结果是一些超链接,在超链接跳转之后你就可以访问其它网站了。
1.2 网络信息的爬取流程
网络爬虫的流程主要可以分为三步,分别是:获取网页、解析网页以及存储数据。
获取网页,顾名思义就是获取网页信息,在网络爬虫技术中这里获取的就是网页源代码。
解析网页,指的是从网页源代码中提取想要的数据,由于网页的结构有一定的规则,配合 Python 的一些第三方库我们可以高效地从中提取网页数据。
存储数据,就是将数据存储下来。