项目背景
大家对于网页的数据爬虫了解的已经很多了,这次爬取APP端的数据。之前我也讲解过APP爬虫,但是没有讲解过Fiddler的配置和使用。这次以微博榜单为案例,介绍APP爬虫流程和数据的可视化(数据为2019年2月28号采集)。整个项目流程如下图所示:
环境配置
首先,在网上下载Fiddler软件,这个和普通的软件安装一样,这里就不详细讲解了。
接着,我们打开Fiddler软件,进行配置,打开tools-options,进行如下的设置。
- 选中"Decrpt HTTPS traffic", Fiddler就可以截获HTTPS请求;
- 选中"Allow remote computers to connect". 是允许别的机器把HTTP/HTTPS请求发送到Fiddler上来。
设置完记得重启软件~
为了让Fiddler截取手机的包,需要让手机和电脑在同一个ip下,在电脑端的cmd中输入:ipconfig,获取电脑ip地址。
接着打开手机(以IPhone为例),打开wifi,配置代理,这里的代理就是上图我们查询的ip地址,8888为端口号。
最后,在手机浏览器输入http://192.168.0.144:8888,点击下载证书,IPhone最后还需要在设置中信任证书,这样就可以用Fiddler抓取手机的包啦。
找包
我们打开Fiddler找包,发现这是一个POST请求,下面就是请求的参数,max_id改变就是换页。
爬虫代码
这样,我们就可以写出完整代码了。
榜单分析
上榜明星,通过对用户昵称计数,看看哪些用户上榜最多。上榜的大多是明星和娱乐号主。
地区分布,上榜的地区分布,可以看出大部分都来自北上广,然后海外用户也是有很多的(有些明星是外籍)。
地区分布情况.png
性别分布,男性和女性分布较平均,男性更多一些~
榜单发布时间和词云图,可以看出,晚上8点是个高峰期,这个点刚好下班吃瓜。
今日互动
代码下载:https://github.com/panluoluo/crawler-analysis,下载完整代码。
留言打卡:现在小鲜肉当道,说说你最喜欢的老戏骨是哪个。公众号后台回复【打卡】,加入打卡学习群,2019年一起搞事情。