爬虫爬取旅游景点信息并进行数据分析

转载

烂漫树林 2024-10-29 21:44:39

一、爬虫介绍

1、概念：爬虫就是模拟客户端发送网络请求，获取请求响应数据，一种按照一定的规则，自动地抓取互联网信息的程序。只要是浏览器能做的事情，原则上爬虫都能够做。

2、使用场景：主要用途是数据采集，爬虫是一种获取数据的重要手段。获取到数据后的用途主要有两个方面：进行数据分析或直接展示（比如百度新闻，就是从其他网站采集数据，然后展示）。

二、爬虫的分类

按照爬取范围分为两类：

通用爬虫：它将爬取对象从一些种子URL扩充到整个Web上的网站，主要用途是为门户站点搜索引擎和大型Web服务提供商采集数据。这类爬虫爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。
聚焦爬虫：选择性地爬取那些与预先定义好的主题相关的页面。与通用爬虫不同的是，聚焦爬虫只需要爬行与主题相关的页面，从而极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好的满足一些特定人群对特定领域信息的需求。

三、爬虫的工作流程

1、搜索引擎流程（通用爬虫）：