python爬虫连载 HTTP请求头

原创

柠檬王大爷 2024-09-22 21:18:34 博主文章分类：python ©著作权

文章标签 服务器 HTTP 客户端 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者柠檬王大爷的原创作品，请联系作者获取转载授权，否则将追究法律责任

HTTP头部信息

HTTP由众多头域组成，每个头域由域名、冒号、域值三部分组成。域名是大小写无关的，

python爬虫连载 HTTP请求头_HTTP

请求头：

1 GET代表的是请求方式，HTTP/1.1表示使用HTTP1.1协议标准。

2 Host 头域，用于指定请求资源的 Intenet 主机和端口号,必须表示请求 URL 的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域，否则系统会以400状态码返回。

3 User-Agent头域，里面包含发出请求的用户信息，其中有使用的浏览器型号、版本和操作系统的信息。这个头域经常用来作为反爬虫的措施。

4 Accept请求报头域，用于指定客户端接受哪些类型的信息。例如:Accept:image/gif表明客户端希望接受GIF图象格式的资源;Accept:text/html，表明客户端希望接受html 文本。

5 Accept-Language 请求报头域，类似于 Accept，但是它用于指定一种自然语言。例如:Accept-Language:zh-cn.如果请求消息中没有设置这个报头域，服务器假定客户端对各种语言都可以接受

6 Accept-Encoding 请求报头域，类似于 Accept，但是它用于指定可接受的内容编码。例如:Accept-Encoding:gzip.deflate。如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

7 Connection报头域允许发送用于指定连接的选项。例如指定连接的状态是连续，或者指定“close”选项，通知服务器，在响应完成后，关闭连接。

8 If-Modified-Since 头域用于在发送HTTP请求时，把浏览器端缓存页面的最后修改时间一起发到服务器去,服务器会把这个时间与服务器上实际文件的最后修改时间进行比较。如果时间一致，那么返回 HTTP状态码 304(不返回文件内容 )，客户端收到之后，就直接把本地缓存文件显示到浏览器中。如果时间不一致，就返回 HTTP 状态码 200 和新的文件内容，客户端收到之后，会丢弃旧文件，把新文件缓存起来，并显示到浏览器中。