自上篇爬虫文章写完之后,好长时间都没有再写爬虫相关的了,这次重新回顾了一下爬虫的相关内容,一并记在这里。

有的东西之前虽然已经写过了,但是再废话一遍。

http/https 协议

  • HTTP(Hypertext Transfer Protocol,超文本传输协议):是一种发布和接受 HTML 网页的方法,服务器端口号为 80 端口
  • HTTPS(Hypertext Transfer Protocol over SecureSocket Layer,超文本传输安全协议):相比较于 HTTP 来说,HTTPS 多了一个 SSL,这个 SSL 就是 SecureSocket Layer 的意思,也就是说 HTTPS 是 HTTP 的加密版本。服务器端口号为 443 端口

URL

URL(Uniform Resource Locator,统一资源定位符):简单的说,就是我们平常在浏览器中输入的网址,该网址能够定位到该资源在网络上的唯一地址。一般来说一个 URL 主要由以下几部分组成:

scheme://host:port/path/?query-string=xxx#anchor

上边的 URL 中,各个部分表示的内容为:

  • scheme:表示访问资源使用的协议,一般为 ftp/http/https
  • host:表示主机名,域名
  • port:表示端口号
  • path:表示查找路径
  • query-string:表示查询字符串
  • anchor:表示锚点,在前端中用于页面定位

以下边的网站为例:

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=http&rsv_spt=1
  • scheme:https
  • host:www.baidu.com
  • path:/s
  • query-string:ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=http&rsv_spt=1

可以看出在上边的 URL 中:

  • 没有显式的显示端口号和锚点
  • 只存在一个 ?
  • 查询字符串之间使用 & 分隔连接
  • URL 被输入到浏览器中时,浏览器会对之进行编码,URL 中如果存在非 ascii 字符,浏览器会将该字符编码为百分号+十六进制码值

HTTP request

  • 在浏览器中输入URL
  • 浏览器会向 HTTP 服务器发送 HTTP request,请求一般为 get/post
  • 服务器将 response 文件返回浏览器
  • 浏览器分析 response 文件,如果其中引用到了其它文件,如 image,css,js,浏览器会再次 request 对应的 image,css,js
  • 当所有的文件都得到 response,浏览器会显示 HTML(有时浏览器也不一定非要等到文件完全加载之后再显示 HTML)

HTTP 请求方法

根据 HTTP 标准,HTTP 请求可以使用多种请求方法。

  • HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD方法
  • HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法

各项请求的作用为:

请求方法

描述

GET

请求指定的页面信息,并返回实体主体

HEAD

类似于 GET 请求,只不过返回的响应中没有具体的内容,用于获取报头

POST

向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改

PUT

从客户端向服务器传送的数据取代指定的文档的内容

DELETE

请求服务器删除指定的页面

CONNECT

HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器

OPTIONS

允许客户端查看服务器的性能

TRACE

回显服务器收到的请求,主要用于测试或诊断

PATCH

是对 PUT 方法的补充,用来对已知资源进行局部更新

但在爬虫中,常用的 HTTP 请求方法主要为 get/post。

Request Headers

在发送 HTTP 请求时,数据一般分为三部分:

  • 把数据放在 URL
  • 把数据放在 body 中(在 post 请求中)
  • 把数据放在 header 中

而一些常见的请求头参数为:

  • User-Agent:浏览器名称。该参数表明了浏览器的类型,而在爬取网页时,如果不设置此参数,可能会被识别出来,因此通常情况下需要设置该参数,对爬虫进行伪装
  • Referer:表明当前的页面是从哪个 URL 跳转过来的,对于某些网站来说,如果不设置此参数,可能会拒绝响应
  • Cookie:表明网络应用用来存储的会话数据和其他信息,如登陆信息

常见的响应状态码

状态码

描述

200

请求正常,服务器正常返回数据

301

永久重定向

302

临时重定向

400

请求的 URL 在服务器找不到,请求 URL 错误

403

服务器拒绝访问,没有权限

500

服务器内部错误