python支付宝账单查询代码 python抓取支付宝账单信息

转载

mob64ca140530fb 2024-06-20 18:10:33

文章标签 python支付宝账单查询代码 servlet网页获取中文乱码编码方式文件名百度 文章分类 Python 后端开发

python支付宝账单查询代码 python抓取支付宝账单信息_文件名

python支付宝账单查询代码 python抓取支付宝账单信息_python支付宝账单查询代码_02

(1)protocol：第一部分就是协议，例如百度使用的就是https协议；

(2)hostname[:port]：第二部分就是主机名(还有端口号为可选参数)，一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址;

(3)path：第三部分就是主机资源的具体地址，如目录和文件名等。

网络爬虫就是根据这个URL来获取网页信息的。

简单爬虫实例

在Python3.x中，我们可以使用urlib这个组件抓取网页，urllib是一个URL处理包，这个包中集合了一些处理URL的模块，如下：

python支付宝账单查询代码 python抓取支付宝账单信息_文件名_03

1.urllib.request模块是用来打开和读取URLs的；

2.urllib.error模块包含一些有urllib.request产生的错误，可以使用try进行捕捉处理；

3.urllib.parse模块包含了一些解析URLs的方法；

4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

我们使用urllib.request.urlopen()这个接口函数就可以很轻松的打开一个网站，读取并打印信息。

python支付宝账单查询代码 python抓取支付宝账单信息_python支付宝账单查询代码_04

urlopen有一些可选参数，具体信息可以查阅Python自带的documentation。

了解到这些，我们就可以写一个最简单的程序，文件名为urllib_test01.py，感受一个urllib库的魅力：

python支付宝账单查询代码 python抓取支付宝账单信息_编码方式_05

urllib使用使用request.urlopen()打开和读取URLs信息，返回的对象response如同一个文本对象，我们可以调用read()，进行读取。再通过print()，将读到的信息打印出来。

运行程序ctrl+b，可以在Sublime中查看运行结果，如下：

python支付宝账单查询代码 python抓取支付宝账单信息_文件名_06

也可以在cmd(控制台)中输入指令：

python urllib_test01.py

运行py文件，输出信息是一样的，如下：

python支付宝账单查询代码 python抓取支付宝账单信息_百度_07

其实这就是浏览器接收到的信息，只不过我们在使用浏览器的时候，浏览器已经将这些信息转化成了界面信息供我们浏览。

当然这些代码我们也可以从浏览器中查看到。

例如，使用谷歌浏览器，在任意界面单击右键选择检查，也就是审查元素(不是所有页面都可以审查元素的，

例如起点中文网付费章节就不行.)，以百度界面为例，截图如下：

python支付宝账单查询代码 python抓取支付宝账单信息_编码方式_08

可以看到，右边就是我们的审查结果。我们可以在本地，也就是浏览器(客户端)更改元素，但是这个不会上传到服务器端。例如我可以修改自己的支付宝余额装一装，比如这样：

python支付宝账单查询代码 python抓取支付宝账单信息_百度_09

我实际有这些钱吗？显然苦逼的我，是不会有这些钱的，我只不过是修改了下审查元素的信息而已。

有些跑偏，不过说的道理就是，浏览器就是作为客户端从服务器端获取信息，然后将信息解析，再展示给我们的。

回归正题，虽然我们已经成功获取了信息，但是显然他们都是二进制的乱码，看起来很不方便。我们怎么办呢？

我们可以通过简单的decode()命令将网页的信息进行解码，并显示出来，我们新创建一个文件，命名为urllib_test02.py，编写如下代码(还是以百度翻译网站fanyi.baidu.com为例)：

python支付宝账单查询代码 python抓取支付宝账单信息_python支付宝账单查询代码_10

这样我们就可以得到这样的结果，显然解码后的信息看起来工整和舒服多了：

python支付宝账单查询代码 python抓取支付宝账单信息_编码方式_11

当然这个前提是我们已经知道了这个网页是使用utf-8编码的，怎么查看网页的编码方式呢？

需要人为操作，且非常简单的方法是使用使用浏览器审查元素，只需要找到head标签开始位置的chareset，就知道网页是采用何种编码的了。如下：

python支付宝账单查询代码 python抓取支付宝账单信息_文件名_12

这样我们就知道了这个网站的编码方式，但是这需要我们每次都打开浏览器，并找下编码方式，显然有些费事，使用几行代码解决更加省事并且显得酷一些。

自动获取网页编码方式的方法

获取网页编码的方式有很多，个人更喜欢用第三方库的方式。

首先我们需要安装第三方库chardet，它是用来判断编码的模块，安装方法如下图所示，只需要输入指令：

python支付宝账单查询代码 python抓取支付宝账单信息_百度_13

安装好后，我们就可以使用chardet.detect()方法，判断网页的编码方式了。

至此，我们就可以编写一个小程序判断网页的编码方式了，新建文件名为chardet_test01.py：

python支付宝账单查询代码 python抓取支付宝账单信息_servlet网页获取中文乱码_14

运行程序，查看输出结果如下：

python支付宝账单查询代码 python抓取支付宝账单信息_编码方式_15

返回的是一个字典，这样我们就知道网页的编码方式了，通过获得的信息，采用不同的解码方式即可。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ios debug app 如何开启 debug软件怎么用

下一篇：Prometheus jquery组件 prometheus部署

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python支付宝账单查询代码 python抓取支付宝账单信息

python支付宝账单查询代码 python抓取支付宝账单信息

51CTO博客