爬虫前期知识补充

转载

mb5fd8680e223c2 2021-09-16 15:01:00

文章标签 数据 json格式 ip地址 php 用户名 文章分类 PHP 后端开发

cookie与session

cookie与session的发明是专门用来解决http协议无状态的特点

http协议无状态>>>>:不保存用户端状态（记不住）

早期的网址不需要保存用户状态所有人来访问都是爱你沟通的数据

随着是道德发展越来越多的网址需要保存用户状态（记住）

cookie：保存在客户端浏览器上的键值对数据

用户第一次登录成功之后浏览器会保存用户名和密码

之后访问该网站都会自动带着用户名和密码

爬虫前期知识补充_json格式

session：保存在服务端上面的用户相关数据

用户第一次登陆成功之后服务端会返回给客户一个随机字符创（也可能是多个）

客户端浏览器保存该随机字符串之后访问网站都会带着这个随机字符串

爬虫前期知识补充_php_02

cookie和session到底是什么关系

session需要依赖cookie

只要是涉及到用户登录都需要使用到cookie

浏览器也可以拒绝保存数据（下图为谷歌浏览器）

爬虫前期知识补充_ip地址_03

cookie实践例子（花花手机网站）

浏览器network选项中请求体对应的关键字是Form Data

登录地址：http://www.aa7a.cn/user.php

请求体数据格式：

username: 616564099@qq.com

password: 123123

captcha: jv3d

remember: 1

ref: http://www.aa7a.cn/user.php?act=logout

act: act_login

写爬虫代码一定要先试用浏览器研究其规律再写出代码

爬虫前期知识补充_json格式_04

思路：

1.研究登录数据提交给后端的URL地址

2.研究登录post请求携带的请求体数据格式

3.模拟发送post请求

import requests


res = requests.post('http://www.aa7a.cn/user.php',
                    data={
                        "username": "616564099@qq.com",
                        "password": "lqz123",
                        "captcha": "kuyb",
                        "remember": 1,
                        "ref": "http://www.aa7a.cn/user.php?act=logout",
                        "act": "act_login"
                    }   data参数携带请求体数据
                    )
 获取cookie数据 print(res.cookies.get_dict())
user_cookie = res.cookies.get_dict()

用户名或密码错误的情况下返回的cookie数据
{'ECS[visit_times]': '1', 
'ECS_ID': '69763617dc5ff442c6ab713eb37a470886669dc2'}

用户名和密码都正确的情况下返回的cookie数据
{
    'ECS[password]': '4a5e6ce9d1aba9de9b31abdf303bbdc2', 
    'ECS[user_id]': '61399', 
    'ECS[username]': '616564099%40qq.com', 
    'ECS[visit_times]': '1', 
    'ECS_ID': 'e18e2394d710197019304ce69b184d8969be0fbd'
    }

爬虫前期知识补充_用户名_05

使用cookie访问网站
res1 = requests.get('http://www.aa7a.cn/',
                    cookies=user_cookie
                    )
if '616564099@qq.com' in res1.text:
    print('登录身份访问')
else:
    print('cookie存在错误')

获取大数据

stream参数：一点一点的取

比如下载一个大约100G的视频使用response.content然后一下子全部写入文件中是不合理的

import requests
response=requests.get('https://www.shiping.com/xxx.mp4',
                      stream=True)
with open('b.mp4','wb') as f:
    for line in response.iter_content():   一行一行读取内容
        f.write(line)

爬虫前期知识补充_ip地址_06

json格式

json格式的数据具有非常明显的特征：双引号

在网络爬虫的领域内部的很多数据都是采用json格式

前后端数据的交互一般采用的是json格式

import requests
res = requests.get

('https://api.bilibili.com/x/player/pagelist?bvid=BV1QE41147hU&jsonp=jsonp')
print(res.json())   可以直接将json格式字符串转换成python对应的数据类型

SSL相关的报错（苹果电脑常见）

百度上一搜全都有

IP代理池

有很多的网站对客户端的IP地址也存在防爬措施

例子：比如在一分钟内同一个IP地址访问该网站的次数不能超过30次超过了就封禁该IP地址

针对该防爬措施如何解决？

需要用到IP代理池

里面有很多的IP地址每次访问从中随机挑选出一个

代理设置：先发送请求给代理，然后由代理帮忙发送（就算IP被封也是很正常的事情）

import requests
proxies={
    'http':'114.99.223.131:8888', 协议是http IP地址和端口号用冒号连接
    'http':'119.7.145.201:8080',
    'http':'175.155.142.28:8080',
}
respone=requests.get('https://www.12306.cn',  需要访问的网站
                     proxies=proxies)

爬虫前期知识补充_用户名_07

cookie代理池

很多网站针对客户端的cookie也存在防爬措施

例子：一分钟之内同一个cookie访问该网站的次数不能超过某个次数超过了就封禁该cookie

针对该防爬措施如何解决

使用cookie代理池

里面有很多的cookie每次访问的时候从里面拿出来一个使用（前期需要准备很多的cookie才能使用）

respone=requests.get('https://www.12306.cn',  #需要访问的网站
                     cookies={}) #输入准备好的cookie

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：C# 属性（Property）

下一篇：javascript实用技巧--数组.

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯