python爬取word超链接

转载

我是数据分析师 2025-01-17 11:05:29

文章标签 python爬取word超链接 HTTP 服务器数据 文章分类 Python 后端开发

大致概括一下
**

HTTP原理：

URI: 全称为Uniform Resource Identifier即统一资源标志符

URL: 全称为Universal Resource Locator即统一资源定位符

举个栗子：https:///favicon.ico是GitHub的网站图标链接，这就是一个URL，也是一个URI。URL是URI的子集。

python爬取word超链接_服务器

python爬取word超链接_数据_02

python爬取word超链接_HTTP_03

URN： 全称为Universal Resource Name 即统一资源名称。

在目前的互联网中，URN用的较少，所以几乎所有URI都是URL

超文本: Hypertext，我们在浏览器中看到的网页就是超文本解析而成。

HTTP： Hyper Text Transfer Protocol即超文本传输协议。是互联网上应用最为广泛的一种网络协议，是一个客户端和服务器端请求和应答的标准（TCP），用于从WWW服务器传输超文本到本地浏览器的传输协议，它可以使浏览器更加高效，使网络传输减少。

HTTPS： Hyper Text Transfer Protocol over Secure Cocker Layer 是以安全为目标的HTTP通道，简单讲是HTTP的安全版，即HTTP下加入SSL层，HTTPS的安全基础是SSL，因此加密的详细内容就需要SSL。

HTTPS协议的主要作用可以分为两种：一种是建立一个信息安全通道，来保证数据传输的安全；另一种就是确认网站的真实性。
　　先在越来越多的网站和APP都已经向HTTPS方向发展。

请求

根据HTTP标准，HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法： GET, POST 和 HEAD方法。

HTTP1.1新增了五种请求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

python爬取word超链接_服务器_04

在浏览器直接输入URL并回车，这便发起了一个GET请求。

GET请求和POST请求区别在于：①GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输，会包含在请求体中。②GET请求提交的数据最多只有1024字节，而POST请求方式没有限制。

请求头：
Accept: 请求报头域，用于指定客户端可接受哪些类型的信息。
Accept-Language： 指定客户端可接受的语言类型。
Accept-Encoding： 指定客户端可接受的内容编码。
Host： 用于指定请求资源的主机IP和端口号，其内容为请求URL的原始服务器或网关的位置。从HTTP1.1版本开始，请求必须包含此内容。
Cookie： 也常用复数形式Cookies,有时也用其复数形式 Cookies，指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。
Referer: HTTP Referer是header的一部分，当浏览器向web服务器发送请求的时候，一般会带上Referer，告诉服务器我是从哪个页面链接过来的，服务器基此可以获得一些信息用于处理。如做来源统计，防盗链处理等。
User-Agent： 简称UA，他是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装成浏览器，如果不加，很可能会被识别出爬虫。
Content-Type: 也叫互联网媒体类型(Internet Media Type),或者MIME类型，在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息。如text/html代表HTML格式。

响应

常见响应状态码见另一博客。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：liunx 下载ncurses

下一篇：android 远程下载的依赖放在哪里

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯