爬虫爬数据用hadoop存储爬虫的数据

转载

mob64ca14147fe3 2024-01-05 21:33:37

文章标签 爬虫爬数据用hadoop存储 python 数据服务器获取数据 文章分类 Hadoop 大数据

第一讲爬虫和数据

一、为什么要做爬虫
二、爬虫是什么
三、http基础
四、requests 模块 get 请求

实践案例可参考下文：第一讲案例

一、为什么要做爬虫

近几年，“大数据”、“云计算”等新词汇应运而生，称为计算机行业的一大热门，那么海量数据是怎样获得的？（获取数据有哪些方式？分别举例）
1、企业产生的用户数据
百度指数、阿里指数
2、数据平台购买数据：
数据堂、国云数据市场】贵阳大数据交易所
3、政府/机构公开的数据：
国家统计局数据、世界银行公开数据
4、数据管理咨询公司：
麦肯锡、埃森哲、艾瑞咨询
5、爬取网络数据：
爬虫技术在技术基础上能获取网络数据。

二、爬虫是什么

（一）、定义
网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
简单地说：就是用事先写好的程序去抓取网络上所需的数据，这样的程序就叫网络爬虫。
（二）、爬虫分类
1 、通用爬虫（了解）
从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。
2 、聚焦爬虫
聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息

三、http基础

（一）、浏览器请求http的过程

1、当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向http服务器发送http请求。http请求主要分为“Get”和“Post”两种方法。

2、当我们在浏览器输入URL ：http://www.baidu.com的时候，浏览器发送一个Request请求去获取 http://www.baidu.com的html文件，服务器把Response文件对象发送回给浏览器。

3、浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

4、当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

（二）、URL 统一资源定位符

统一资源定位符，是用于完整地描述 Internet 上网页和其他资源的地址的一种标识方法。

比如百度搜索路由：https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu.

基本格式：scheme://host[:port#]/path/…/[?query-string][#anchor]

①scheme：协议(例如：http， http， ftp)

②host：服务器的 IP 地址或者域名

③port：服务器的端口(如果是走协议默认端口，缺省端口 80)

④path：访问资源的路径

⑤query-string：参数，发送给 http 服务器的数据

⑥anchor：锚(跳转到网页的指定锚点位置)

爬虫爬数据用hadoop存储爬虫的数据_服务器

（三）、客户端 http 请求

URL 只是标识资源的位置，而 http 是用来提交和获取资源

请求格式，由四部分组成：请求行、请求头部、空行、请求数据

（四）、get请求和post请求的区别

1、get：获取，从服务器获取数据。—获取什么（可以通过参数取告诉服务）—请求参数是拼接的url里面的—不安全和大小受限的缺陷。

2、post：提交，向服务器传递数据。—提交数据放在客户端请求的请求数据的位置。----更安全了而且大小是不受限的。

四、requests 模块 get 请求

（一）、爬虫基本流程：
1、导入requests包
2、准备url
两种方式：
①使用params属性：base_url = ‘？之前的路由’
②直接拼接的：base_url = ‘在需要修改的部分替换为%s’（最常用）
3、准备参数
参数以字典形式进行储存
get请求：①headers请求头，一般有浏览器标识：User-Agent②params，请求参数
post请求：①headers请求头，User-Agent、‘x-requested-with’: ‘XMLHttpRequest’异步必备、‘Content-Length’、 ‘Content-Type’。②data，提交的数据
4、发送请求获取响应
get请求：response = requests.get(base_url, headers=headers, params=params)
post请求：response = requests.post(base_url, headers=headers, data=data)
5、get获取页面
写入文件 with 上下文管理器
with open(f’{dirname}/{page}.html’, ‘w’, encoding=‘utf-8’) as fp:
fp.write(response.content.decode(encoding=‘utf-8’))
post获取数据
post获得的数据为json格式，想要使用requests模块自带的json()方法转换为字典、列表格式
response.json()
（二）、文本数据有哪两种格式？
字符串响应正文：response.text获取，response.text是通过response.encoding这个属性设置的值来进行编程字符串，response.encoding是通过requests模块自动识别的。（基本识别都是对的）
bytes响应正文：response.content得到二进制数据，response.content.decode(encoding=‘utf-8’)，可将获取的二进制数据编码为中文适应的’utf-8‘格式。