Python3网络爬虫开发实战电子书 python3网络爬虫宝典pdf

转载

mob64ca14048514 2024-03-10 22:36:51

文章标签 Python3网络爬虫开发实战电子书爬虫 http https css 文章分类 Python 后端开发

1 爬虫基础

1.1 http原理

url格式规范：

Python3网络爬虫开发实战电子书 python3网络爬虫宝典pdf_爬虫

sheme：协议。通常有http、https、ftp等

username、password：用户名和密码

hostname：主机地址

port：端口

path：路径。网络资源在服务器中的指定位置

paramenters：参数，访问资源的附加信息

query：查询，如果多个查询用&隔开

fragment：片段。资源内部的书签

http中文名为超文本传输协议，https是http的安全版，在http下加了层ssl
ssl的作用是建立安全通道，确保数据的安全性，确保数据的真实性

http请求的过程：浏览器向所在网站的服务器发送一个请求，网站服务器接收到请求后对其进行处理和解析，然后返回对应的响应，接着传回到浏览器中，响应包里包含页面的源代码内容。network监听组在访问请求网页时显示所有的网络请求和响应

Python3网络爬虫开发实战电子书 python3网络爬虫宝典pdf_Python3网络爬虫开发实战电子书_02

分别是：请求的url，请求的方法，响应码，远程服务器地址和端口，判别策略

response heads和requests heads分别代表响应头和请求头，请求头包含很多信息，如浏览器标识，cookie，host等，

请求：分为四个部分，请求方式（get和post），请求网址，请求头，请求体
get：输入url回车发起一个get请求，请求的参数都在url中
post是在需要填写表单时发起，比如输入用户名和密码，数据通过表单进行传输

请求头：accept，accept-language，accept-encoding，host，cookie，referer：是从那个页面发过来的
user-agent:识别操作系统版本，浏览器版本等、content-type：互联网媒体类型
请求体：一般承载的内如是post表单数据

响应：服务器返回客户端，三个部分。响应状态码（200正常响应，404页面未找到），响应头，响应体

响应头：

Python3网络爬虫开发实战电子书 python3网络爬虫宝典pdf_Python3网络爬虫开发实战电子书_03

响应体：网页的html

http2.0可以去了解一下

1.2 网页基础

1、网页组成：html（骨架）、css（肌肉）、javascript（皮肤）
htm：超文本标记语言，不同类型的标签标示不同类型的元素，
css：层叠样式表，样式指的是网页中文字大小、颜色、元素间距、排列格式等，后缀为css
javascript：交互动画效果

2、网页结构

body标签的内容要在网页正文中显示，div标签定义网页中的区块，非常常用的属性。

节点之间的关系

Python3网络爬虫开发实战电子书 python3网络爬虫宝典pdf_css_04

3、选择器

css会为不同的节点设置不同的样式，用css选择器定位节点。

可以根据id，class，标签名选择

1.3 session 和cookie

1.4代理

代理就是代理服务器，由代理服务器请求发送给web服务端，web服务端返回的响应，由代理服务器发送给客户端，
代理的作用：突破自身的ip限制，隐藏真实ip，提高访问速度，访问内部资源
代理的分类：根据协议划分，根据匿名程度划分
常见的代理设置：网上免费，付费代理服务，adsl拨号，蜂窝代理

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：微服务启动的时候如何让在左侧显示微服务运行在哪

下一篇：decimal hive处理 hive中decimal类型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯