3.每天进步一点点-Python爬虫需要了解HTTP 请求报文
每天进步一点点-Python爬虫需要了解一下基础的web相关内容(网络请求过程、URI、URL)
HTTP 响应报文由四部分组成,`状态行`、`响应头`、`空行`和`响应正文`。
一般的网络站点都由多个网页组成,而一个网页由 HTML、CSS 和 JavaScript 三部分组成
通过 urllib 库可以模拟请求,得到网页的内容,但是在大多数情况下我们并不需要整 个网页,而只需要网页中某部分的信息。可以利用解析库 lxml 迅速、灵活地处理 HTML 或 XML,提取需要的信息。另外,该库支持 XPath 的解析方式,效率也非常高。
urllib 库是 Python 内置的一个 HTTP 请求库。在 Python 2.x 中,是由 urllib 和 urllib2 两 个库来实现请求发送的,在 Python 3.x 中,这两个库已经合并到一起,统一为 urllib 了。
1.Requests库介绍2.Requests HTTP基本请求3.Requests请求常用设置4.Requests处理返回结果
5.Requests处理Cookie6.Requests重定向与请求历史7.Requests 错误与异常处理8.Requests Session会话对象9.Requests SSL证书验证
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号