这次换一个售房网站来练练手,爬取目标是我爱我家的成交记录。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_迭代

爬取目标是我爱我家的成交记录

我爱我家的网站结构貌似比链家的要复杂一点点,它并没有像链家网一样,把成交记录单独分成一个版块,而是把每条成交记录按小区进行了汇总,一级界面显示成交均价,每条的成交价格需要进入各个小区的二级界面,继续往下拖动之后才能查看。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_二级_02

网页结构

python 抓取房天下某个区的房屋信息 用python爬取房价数据_数据_03

那么,我们想要爬取的每条成交价格,实则在二级界面的详细成交记录框内。

十五家园小区二级界面

以十五家园小区为例,分析一下二级界面的url。url中22700肯定就是该小区的ID,那么我们直接获取不同小区的ID后,对22700数值分别进行替换,就构建了所有小区的url列表,然后分别对不同的url进行请求,以获取每条成交价格行不行呢?结果应该是不行的。

在二级界面的成交框中,每一页只显示了4条成交记录,通过点击第接下来的几页,可以发现网址栏中的url仍然是,所以该成交框是通过异步加载完成的,相当于是另一个独立的网页内嵌在该小区的二级界面中。直接对二级界面的url进行请求,当然就获取不到成交框内的信息。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_数据_04

成交框

此处,我是通过抓包的方式来获取成交框的url。单击F12调出开发者工具,依次选择Network→Preserve log→点击第2页→选择Request URL。此处的Request URL应该就是成交框的真实url。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_python房价_05

抓包

成交框url5i5j是主域名,communityid=22700就是该小区的ID,page=2代表我们刚刚点击的第2页,communityname=%5%8...就是小区名称十五家园经过UTF-8转码后的表现形式。

一般情况下,如果直接将获取的这个url复制下来后并在另一个窗口中打开,应该是可以显示出我们想获取的成交框中的数据。但是此处,打开这个url却发现是一个空白页面,在python中利用requests库对该url进行请求,也获得不到任何数据。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_二级_06

Headers

于是尝试加入headers之后再进行请求。在F12的开发者界面中,将Request Headers下的信息添加进Headers之后,对成交框的url进行请求,发现可以正常显示出成交框内的信息。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_python房价_07

加入Headers之后的请求

进一步对成交框的url进行分析,可以发现将&communityname=及以后的内容删掉,也可以正常获得数据;headers中的X-Requested-With: XMLHttpRequest则不能删除,否则就返回的是空白页。

到现在,对网页的分析已经基本完毕!

获取成交数据的大致方向就是将URL: &page=2拆分为3部分第一部分/getdeals?,不用变第二部分communityId=22700,将22700替换成不同小区的ID第三部分page=2,将2换成不同的数值以代表不同的页面对构建的URL进行请求并获取数据问题一 如何知道各个小区的ID?

python 抓取房天下某个区的房屋信息 用python爬取房价数据_二级_08

审查元素

在一级界面内对十五家园小区的名称进行审查元素后,发现ID是藏在了href中。

十五家园

因此只需要将一级界面中所有小区的ID通过xpath的方式抓取出来即可。

问题二 如何知道成交框有多少页?

加入headers对成交框的url进行请求,返回的成交框源代码的末尾处,通过对倒数第二个

标签进行抓取获得。

此处倒数第一个

标签是 "尾页",倒数第二个标签是 "6",即最大页面。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_python房价_09

MaxPage

整理一下思路就是

python 抓取房天下某个区的房屋信息 用python爬取房价数据_二级_10

但是在我爱我家的一级界面中最多只能显示12条小区信息,也就是说一个一级界面的url只能获取12个小区的ID,只有先获取了所有一级界面的URL,才能进一步获得所有小区的ID。

我爱我家一级界面URL/community/n1

再通过不断的点击下一页,可以发现n后面的数字就代表了页数。那么问题就简单了,直接对n后的数值不断的迭代,就获得了所有的一级界面url。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_迭代_11

问题真这么简单吗?坑爹的发现,将n后的数值迭代到85时,就不能显示出小区信息了,也就是说通过这个方法只能获得84×15=1260条小区信息,然而总共有5000多条信息。

老办法,通过加入筛选条件,对小区进行分割,此处我还是选择了以价格为条件,人为的将每个条件下的小区数量控制在1260条以下。另外还选择了以行政区域为条件,因为在1万元以下的小区数量还是超过了1260条,因此我继续对其进行了分割。

#p1 [0,10000)#p2 [10000,15000)#p3 [15000,20000)#p4 [20000,25000)#p7 [70000,+∞)start_urls = [...........']

分割完毕之后,另一个问题是如何知道每个条件下的最大页面数量。我们知道,每1页最多只能显示12条小区,只要先知道在当前筛选条件下,一共有多少小区,就可以计算出有多少页。

python 抓取房天下某个区的房屋信息 用python爬取房价数据_数据_12

最大小区数量

比如上面这个例子,一共有405个小区,那么就有405/12=33.75,向上取整即34页。

现在,整个流程已经清晰!

python 抓取房天下某个区的房屋信息 用python爬取房价数据_二级_13

最大页面数X:用于构建所有一级的界面URL。例如community/xiacheng/p(1~X)ID Y和MaxPage Z用于构建该小区下的所有成交页面URL。例如xchange/getdeals?communityId=Y&page=(1~Z)对不同条件下的一级界面URL进行迭代至最大页数X,获取所有小区的ID,再对各个小区的成交框URL进行接待至最大页面数Z,抓取想要的信息即可。

作者:ISeeMoon