python点击按钮后跳到另一个窗口 python点击按钮跳转窗口

转载

mob6454cc659b12 2024-06-12 22:05:39

文章标签 python点击按钮后跳到另一个窗口爬虫 IP HTTP 服务器 文章分类 Python 后端开发

1.2requests模块的使用
介绍
前面我们学习了爬虫的基础知识，那么接下来我们就来学习如何在代码中实现我们的爬虫

内容
requests模块的认识
requests发送get请求
requests获取响应数据
requests发送带headers的请求
requests发送带参数的请求
requests发送POST请求
requests使用代理
requests处理cookie

1.2.1requests模块的入门使用
目标
掌握requests发送请求的方法
掌握response对象的基础属性
掌握requests发送带headers的请求
掌握requests模块发送带参数请求

为什么要重点学习requests模块，而不是urllib
requests的底层实现就是urllib
requests在python2 和python3中通用，方法完全一样
requests简单易用
Requests能够自动帮助我们解压(gzip压缩的等)网页内容
2.requests的作用
作用：发送网络请求，返回响应数据

中文文档： http://docs.python-requests.org/zh_CN/latest/index.html

通过观察文档来学习：如何使用requests来发送网络请求？

requests模块发送简单的请求、获取响应
需求：通过requests向百度首页发送请求，获取百度首页的数据

response = requests.get(url)

response的常用属性：

response.text
respones.content
response.status_code
response.request.headers
response.headers
思考：text是response的属性还是方法呢？

一般来说名词，往往都是对象的属性，对应的动词是对象的方法

3.1 response.text 和response.content的区别
response.text

类型：str
解码类型：根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
如何修改编码方式：response.encoding=”gbk”
response.content

类型：bytes
解码类型：没有指定
如何修改编码方式：response.content.deocde(“utf8”)
获取网页源码的通用方式：

response.content.decode()
response.content.decode(“GBK”)
response.text
以上三种方法从前往后尝试，能够100%的解决所有网页解码的问题

所以：更推荐使用response.content.deocde()的方式获取响应的html页面

3.2 练习：把网络上的图片保存到本地
思考：

以什么方式打开文件
保存什么格式的内容
4. 发送带header的请求
4.1 思考
对比浏览器上百度首页的网页源码和代码中的百度首页的源码，有什么不同？

代码中的百度首页的源码非常少，为什么？

4.2 为什么请求需要带上header？
模拟浏览器，欺骗服务器，获取和浏览器一致的内容

4.3 header的形式：字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

4.4 用法

requests.get(url,headers=headers)

5.发送带参数的请求
5.1 什么叫做请求参数：
错误的列1： http://www.webkaka.com/tutorial/server/2015/021013/

正确的例2：https://www.baidu.com/s?wd=python&c=b

5.2 参数的形式：字典

kw = {'wd':'长城'}

5.3用法
requests.get(url,params=kw)

5.4 关于参数的注意点
在url地址中，很多参数是没有用的，比如百度搜索的url地址，其中参数只有一个字段有用，其他的都可以删除

对应的，在后续的爬虫中，越到很多参数的url地址，都可以尝试删除参数

6.作业
1.获取新浪首页，查看response.text 和response.content.decode()的区别

2.实现任意贴吧的爬虫，保存网页到本地

小结
本小结重点
掌握requests模块的基本使用
掌握响应的基础属性的使用

1.2.2requests模块的深入使用
目标
掌握requests发送post请求的方法
掌握requests模块使用打理的方法
了解代理ip池的内涵
1.requests模块发送POST请求
1.1 哪些地方我们会用到POST请求：
登录注册（ POST 比 GET 更安全）
需要传输大文本内容的时候（ POST 请求对数据长度没有要求）
所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

1.2 使用requests模块发送post请求
用法： response = requests.post(“http://www.baidu.com/”, data = data,headers=headers)

data 的形式：字典

1.3 下面我们通过百度翻译的例子看看post请求如何使用

使用代理
2.1 为什么要使用代理
让服务器以为不是同一个客户端在请求

防止我们的真实地址被泄露，防止被追究

2.2 理解使用代理的过程

2.3 理解正向代理和反向代理的区别

通过上图可以看出：正向代理：对于浏览器知道服务器的真实地址，例如VPN 反向代理：浏览器不知道服务器的真实地址，例如nginx

2.4 代理的使用
用法： requests.get(“http://www.baidu.com”, proxies = proxies)

proxies的形式：字典

例如：

proxies = { 
    "http": "http://12.34.56.79:9527", 
    "https": "https://12.34.56.79:9527", 
    }

2.5 代理IP的分类
根据代理服务器端的配置，向目标地址发送请求时，REMOTE_ADDR， HTTP_VIA，HTTP_X_FORWARDED_FOR三个变量不同而可以分为下面四类：

透明代理(Transparent Proxy)

REMOTE_ADDR = Proxy IP
  HTTP_VIA = Proxy IP
  HTTP_X_FORWARDED_FOR = Your IP

透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。

匿名代理(Anonymous Proxy)

REMOTE_ADDR = proxy IP
  HTTP_VIA = proxy IP
  HTTP_X_FORWARDED_FOR = proxy IP

匿名代理比透明代理进步了一点：别人只能知道你用了代理，无法知道你是谁。

混淆代理(Distorting Proxies)

REMOTE_ADDR = Proxy IP
  HTTP_VIA = Proxy IP
  HTTP_X_FORWARDED_FOR = Random IP address

如上，与匿名代理相同，如果使用了混淆代理，别人还是能知道你在用代理，但是会得到一个假的IP地址，伪装的更逼真

高匿代理(Elite proxy或High Anonymity Proxy)

REMOTE_ADDR = Proxy IP
  HTTP_VIA = not determined
  HTTP_X_FORWARDED_FOR = not determined

可以看出来，高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

从使用的协议：代理ip可以分为http代理，https代理，socket代理等，使用的时候需要根据抓取网站的协议来选择

2.6 代理IP使用的注意点
反反爬

使用代理ip是非常必要的一种反反爬的方式,但是即使使用了代理ip，对方服务器任然会有很多的方式来检测我们是否是一个爬虫

比如：

一段时间内，检测IP访问的频率，访问太多频繁会屏蔽

检查Cookie，User-Agent，Referer等header参数，若没有则屏蔽

服务方购买所有代理提供商，加入到反爬虫数据库里，若检测是代理则屏蔽

所以更好的方式是购买质量更高的代理，或者自己搭建代理服务器，组装自己的代理IP池，同时在使用的时候使用随机的方式进行选择使用，不要每次都用一个代理ip，没事没有任何效果的

代理ip池的更新

购买的代理ip很多时候大部分(超过60%)可能都没办法使用，这个时候就需要通过程序去检测哪些可用，把不能用的删除掉。对应的实现方式在我们学习了超时参数的使用之后大家会了解

面试

很多时候面试官会了解自己项目中的代理ip的使用情况，比如：代理ip池的大小，代理ip的更新时间，代理ip中可用的代理ip的比例等等，这些都是开放性的问题，面试官了解的时候估计是自己的代理ip池用的不爽：）

小结
本小结重点
掌握requests模块发送post请求的方法
掌握requests模块使用代理ip的方法
掌握代理ip池的内涵

1.2.3requess模块处理cookie相关的请求
目标
掌握requests处理cookie的三种方式
掌握分析js的方法
1 使用requests处理cookie相关的请求
1.1 回顾cookie和session的区别
cookie数据存放在客户的浏览器上，session数据放在服务器上。
cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。
session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能。
单个cookie保存的数据不能超过4K，很多浏览器都限制一个站点最多保存20个cookie。
1.2 爬虫中为什么要使用cookie
带上cookie的好处
能够访问登录后的页面
正常的浏览器在请求服务器的时候肯定会带上cookie（第一次请求某个地址除外），所以对方服务器有可能会通过是否携带cookie来判断我们是否是一个爬虫，对应的能够起到一定的反爬的效果
带上cookie的坏处
一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
那么上面的问题如何解决 ?使用多个账号
1.3 requests处理cookie相关的请求之session
requests 提供了一个叫做session类，来实现客户端和服务端的会话保持

会话保持有两个内涵：

保存cookie
实现和服务端的长连接
使用方法

session = requests.session()
  response = session.get(url,headers)

session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie

动手：

动手尝试使用session来登录人人网： http://www.renren.com/PLogin.do(先不考虑这个url地址从何而来)，请求体的格式：{“email”:“username”, “password”:“password”}

1.4 requests处理cookie相关的请求之cookie放在headers中
了解headers中cookie

headers中的cookie：
使用分号(;)隔开
分号两边的类似a=b形式的表示一条cookie
a=b中，a表示键（name），b表示值（value）
在headers中仅仅使用了cookie的name和value
cookie的具体组成的字段

由于headers中对cookie仅仅使用它的name和value，所以在代码中我们仅仅需要cookie的name和value即可

在headers中使用cookie

headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

cookie有过期时间，所以直接复制浏览器中的cookie可能意味着下一程序继续运行的时候需要替换代码中的cookie，对应的我们也可以通过一个程序专门来获取cookie供其他程序使用；当然也有很多网站的cookie过期时间很长，这种情况下，直接复制cookie来使用更加简单

1.5 requests处理cookie相关的请求之使用cookies参数
cookies的形式：字典

cookies = {"cookie的name":"cookie的value"}

使用方法：

requests.get(url,headers=headers,cookies=cookie_dict}

人人网登录之js分析流程
2.1 人人网登陆过程中url地址哪里找？
在前面的人人网登陆过程中，我们找到了一个登陆接口，那么这个接口从哪里找到的呢？

可以发现，这个地址就是在登录的form表单中action对应的url地址，回顾前端的知识点，可以发现就是进行表单提交的地址，对应的，提交的数据，仅仅需要：用户名的input标签中，name的值作为键，用户名作为值，密码的input标签中，name的值作为键，密码作为值即可

2.2 如果action对应的没有url地址的时候可以怎么做？
2.2.1 通过抓包寻找登录的url地址

通过抓包可以发现，在这个url地址和请求体中均有参数，比如uniqueTimestamp和rkey以及加密之后的password

这个时候我们可以观察手机版的登录接口，是否也是一样的

可以发现在手机版中，依然有参数，但是参数的个数少一些，这个时候，我们可以使用手机版作为参看，来学习如何分析js

js分析之查看js的位置
3.1 观察按钮的绑定js事件

通过点击按钮，然后点击Event Listener，部分网站可以找到绑定的事件，对应的，只需要点击即可跳转到js的位置

3.2 通过search all file 来搜索
部分网站的按钮可能并没有绑定js事件监听，那么这个时候可以通过搜索请求中的关键字来找到js的位置，比如livecell

点击美化输出选项

可以继续在其中搜索关键字

js分析之观察js的执行过程
找到js的位置之后，我们可以来通过观察js的位置，找到js具体在如何执行，后续我们可以通过python程序来模拟js的执行，或者是使用类似js2py直接把js代码转化为python程序去执行

观察js的执行过程最简单的方式是添加断点

添加断点的方式：在左边行号点击即可添加，对应的右边BreakPoints中会出现现有的所有断点

添加断点之后继续点击登录，每次程序在断点位置都会停止，通过如果该行有变量产生，都会把变量的结果展示在Scoope中

在上图的右上角有1，2，3三个功能，分别表示：

1：继续执行到下一个断点
2：进入调用的函数中
3：从调用的函数中跳出来
4. 执行js
js也是一门动态的语言，所以在运行的时候需要js的解释器，目前现有的类似js2py的工具都不是特别完善，对于简单的js可以运行，但是复杂的是处理不了的

通过后面的接触大家会发现，很多js都是进过混淆和加密的，即在js的源码中我们会发现大量的命名为a,b,c,d的函数和变量，对于这种情况，如果必须去分析js，那么肯定是非常头大的，但是在后面的课程中，我们会学习通过程序其控制浏览器的方式操作网页、获取数据，这个方法会更加简单。所以在这里我们需要掌握js的分析过程即可。

小结
本小结重点
掌握requests进行模拟登陆的三种方式
掌握js的分析过程
其他
requests模拟登陆页可以分为两种，一种是通过post请求获取cookie，一种直接复制浏览器中的cookie
js分析的时候需要先找到js的位置(通过观察绑定事件，或者是搜索)，之后添加断点观察js的运行，或者是其中具体函数的实现

1.2.4requests模块的其他方法
目标
掌握requests模块获取cookie的方法
掌握requests模块ssl证书错误的处理方法
掌握超时参数的使用
掌握retrying模块的使用

requests模块获取cookie
requests.utils.dict_from_cookiejar:把cookiejar对象转化为字典
import requests
url = “http://www.baidu.com”
response = requests.get(url)
print(type(response.cookies))
cookies = requests.utils.dict_from_cookiejar(response.cookies)
print(cookies)

输出为:

<class 'requests.cookies.RequestsCookieJar'>
{'BDORZ': '27315'}

在前面的requests的session类中，我们不需要处理cookie的任何细节，如果有需要，我们可以使用上述方法来解决

requests处理证书错误
经常我们在网上冲浪时，经常能够看到下面的提示：

出现这个问题的原因是：ssl的证书不安全导致

那么如果在代码中请求会怎么样呢？

import requests

url = "https://www.12306.cn/mormhweb/"
response = requests.get(url)

ssl.CertificateError ...

为了在代码中能够正常的请求，我们修改添加一个参数

import requests

url = "https://www.12306.cn/mormhweb/"
response = requests.get(url,verify=False)

超时参数的使用
在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果

对应的，在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错

使用方法如下：

response = requests.get(url,timeout=3)

通过添加timeout参数，能够保证在3秒钟内返回响应，否则会报错

这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除

retrying模块的使用
上述方法能够加快我们整体的请求速度，但是在正常的网页浏览过成功，如果发生速度很慢的情况，我们会做的选择是刷新页面，那么在代码中，我们是否也可以刷新请求呢？

对应的，retrying模块就可以帮助我们解决

retrying模块的地址：https://pypi.org/project/retrying/

retrying 模块的使用

使用retrying模块提供的retry模块
通过装饰器的方式使用，让被装饰的函数反复执行
retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行
所以我们可以结合前面的知识点和retrying模块，把我们需要反复使用的请求方法做一个简单的封装，在后续任何其他地方需要使用的时候，调用该方法就行

代码参考

# parse.py
import requests
from retrying import retry

headers = {}


@retry(stop_max_attempt_number=3) #最大重试3次，3次全部报错，才会报错
def _parse_url(url)
    response = requests.get(url, headers=headers, timeout=3) #超时的时候回报错并重试
    assert response.status_code == 200 #状态码不是200，也会报错并充实
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        response = None
    return response

小结
本小结重点
掌握requests模块获取cookie的方法
掌握requests模块ssl证书错误的处理方法
掌握超时参数的使用
掌握retrying模块的使用

1.2.5chrome浏览器使用方法介绍
目标
掌握chrome在爬虫中的使用：）

新建隐身窗口

1.1 为什么需要新建隐身窗口
在打开隐身窗口的时候，第一次请求某个网站是没有携带cookie的，和代码请求一个网站一样，不携带cookie。这样就能够尽可能的理解代码请求某个网站的结果；除非数据是通过js加载出来的，不然爬虫请求到的数据和浏览器请求的数据大部分时候都是相同的

chrome中network的更多功能

2.1 Perserve log
默认情况下，页面发生跳转之后，之前的请求url地址等信息都会消失，勾选perserve log后之前的请求都会被保留

2.2 filter过滤
在url地址很多的时候，可以在filter中输入部分url地址，对所有的url地址起到一定的过滤效果，具体位置在上面第二幅图中的2的位置

2.3 观察特定种类的请求
在上面第二幅图中的3的位置，有很多选项，默认是选择的all，即会观察到所有种类的请求

很多时候处于自己的目的可以选择all右边的其他选项，比如常见的选项：

XHR:大部分情况表示ajax请求
JS:js请求
CSS:css请求
但是很多时候我们并不能保证我们需要的请求是什么类型，特别是我们不清楚一个请求是否为ajax请求的时候，直接选择all,从前往后观察即可，其中js，css，图片等不去观察即可

不要被浏览器中的一堆请求吓到了，这些请求中除了js，css，图片的请求外，其他的请求并没有多少个

2.4 其他方法
在前面的课程中我们还介绍了：

search all file
确定js的位置
js中添加断点
小结
本小结重点
理解为什么需要新建隐身窗口
掌握perserve log的使用
学会寻找需要的请求地址

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：axios post请求发送到后端中文乱码 axios发送jsonp请求

下一篇：kubernetes加密 kubernetes limit

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python点击按钮后跳到另一个窗口 python点击按钮跳转窗口

python点击按钮后跳到另一个窗口 python点击按钮跳转窗口

51CTO博客