一、requests基本用法

(一)什么是爬虫

获取网络数据(公开的网络)

(二)爬虫的基本流程

第一步:获取网络数据(requests、selenium)

第二步:解析数据:从获取到的网络数据中提取有效数据(正则、bs4、lxml)

第三步:保存数据(csv、excel、数据等)

(三)requests

python获取网络数据的第三方库(基于http或者https协议的网络请求)

爬虫使用requests的两个场景:直接请求网页地址、对提供网页数据的数据接口发送请求

(四)requests基本用法

1)对目标网页直接发送请求

response = requests.get(网页地址)

获取指定页面的数据返回一个响应对象

import requests

response = requests.get('https://cd.zu.ke.com/zufang')
print(response)     # <Response [200]>    200 - 请求成功

获取响应的状态码

print(response.status_code)
if response.status_code == 200:
    pass

获取响应头

print(response.headers)

请求内容(返回的真正有用的数据)

1)response.content - 二进制类型的数据:图片、视频、音频等
例如:图片下载

2)response.text - 字符串类型的数据:网页\

3)response.json() - 对请求内容做完json解析后的数据:json数据接口