目录

  • 1 爬虫基础
  • 1.1 http原理
  • 1.2 网页基础
  • 1.3 session 和cookie
  • 1.4代理


1 爬虫基础

1.1 http原理

url格式规范:

Python3网络爬虫开发实战 电子书 python3网络爬虫宝典pdf_爬虫


sheme:协议。通常有http、https、ftp等

username、password:用户名和密码

hostname:主机地址

port:端口

path:路径。网络资源在服务器中的指定位置

paramenters:参数,访问资源的附加信息

query:查询,如果多个查询用&隔开

fragment:片段。资源内部的书签

http中文名为超文本传输协议,https是http的安全版,在http下加了层ssl
ssl的作用是建立安全通道,确保数据的安全性,确保数据的真实性

http请求的过程:浏览器向所在网站的服务器发送一个请求,网站服务器接收到请求后对其进行处理和解析,然后返回对应的响应,接着传回到浏览器中,响应包里包含页面的源代码内容。network监听组在访问请求网页时显示所有的网络请求和响应

Python3网络爬虫开发实战 电子书 python3网络爬虫宝典pdf_Python3网络爬虫开发实战 电子书_02


分别是:请求的url,请求的方法,响应码,远程服务器地址和端口,判别策略

response heads和requests heads分别代表响应头和请求头,请求头包含很多信息,如浏览器标识,cookie,host等,

请求:分为四个部分,请求方式(get和post),请求网址,请求头,请求体
get:输入url回车发起一个get请求,请求的参数都在url中
post是在需要填写表单时发起,比如输入用户名和密码,数据通过表单进行传输

请求头:accept,accept-language,accept-encoding,host,cookie,referer:是从那个页面发过来的
user-agent:识别操作系统版本,浏览器版本等、content-type:互联网媒体类型
请求体:一般承载的内如是post表单数据

响应:服务器返回客户端,三个部分。响应状态码(200正常响应,404页面未找到),响应头,响应体

响应头:

Python3网络爬虫开发实战 电子书 python3网络爬虫宝典pdf_Python3网络爬虫开发实战 电子书_03


响应体:网页的html

http2.0可以去了解一下

1.2 网页基础

1、网页组成:html(骨架)、css(肌肉)、javascript(皮肤)
htm:超文本标记语言,不同类型的标签标示不同类型的元素,
css:层叠样式表,样式指的是网页中文字大小、颜色、元素间距、排列格式等,后缀为css
javascript:交互动画效果

2、网页结构

body标签的内容要在网页正文中显示,div标签定义网页中的区块,非常常用的属性。

节点之间的关系

Python3网络爬虫开发实战 电子书 python3网络爬虫宝典pdf_css_04


3、选择器

css会为不同的节点设置不同的样式,用css选择器定位节点。

可以根据id,class,标签名选择

1.3 session 和cookie

1.4代理

代理就是代理服务器,由代理服务器请求发送给web服务端,web服务端返回的响应,由代理服务器发送给客户端,
代理的作用:突破自身的ip限制,隐藏真实ip,提高访问速度,访问内部资源
代理的分类:根据协议划分,根据匿名程度划分
常见的代理设置:网上免费,付费代理服务,adsl拨号,蜂窝代理