大致概括一下
**

HTTP原理:

**

URI: 全称为Uniform Resource Identifier即统一资源标志符

URL: 全称为Universal Resource Locator即统一资源定位符

举个栗子:https:///favicon.ico是GitHub的网站图标链接,这就是一个URL,也是一个URI。URL是URI的子集。

python爬取word超链接_服务器


python爬取word超链接_数据_02

python爬取word超链接_HTTP_03


URN: 全称为Universal Resource Name 即统一资源名称。

在目前的互联网中,URN用的较少,所以几乎所有URI都是URL

超文本: Hypertext,我们在浏览器中看到的网页就是超文本解析而成。

HTTP: Hyper Text Transfer Protocol即超文本传输协议。 是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。

HTTPS: Hyper Text Transfer Protocol over Secure Cocker Layer 是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

HTTPS协议的主要作用可以分为两种:一种是建立一个信息安全通道,来保证数据传输的安全;另一种就是确认网站的真实性。
  先在越来越多的网站和APP都已经向HTTPS方向发展。

请求

根据HTTP标准,HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。

HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

python爬取word超链接_服务器_04


在浏览器直接输入URL并回车,这便发起了一个GET请求。

GET请求和POST请求区别在于:①GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输,会包含在请求体中。②GET请求提交的数据最多只有1024字节,而POST请求方式没有限制。

请求头:
Accept: 请求报头域,用于指定客户端可接受哪些类型的信息。
Accept-Language: 指定客户端可接受的语言类型。
Accept-Encoding: 指定客户端可接受的内容编码。
Host: 用于指定请求资源的主机IP和端口号,其内容为请求URL的原始服务器或网关的位置。从HTTP1.1版本开始,请求必须包含此内容。
Cookie: 也常用复数形式Cookies,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。
Referer: HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器基此可以获得一些信息用于处理。如做来源统计,防盗链处理等。
User-Agent: 简称UA,他是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息,可以伪装成浏览器,如果不加,很可能会被识别出爬虫。
Content-Type: 也叫互联网媒体类型(Internet Media Type),或者MIME类型,在HTTP协议消息头中,它用来表示具体请求中的媒体类型信息。如text/html代表HTML格式。

响应

常见响应状态码见另一博客。