python 抓取房天下某个区的房屋信息用python爬取房价数据

转载

kcoufee 2023-10-25 16:08:23

文章标签 python房价二级数据迭代 文章分类 Python 后端开发

这次换一个售房网站来练练手，爬取目标是我爱我家的成交记录。

python 抓取房天下某个区的房屋信息用python爬取房价数据_迭代

爬取目标是我爱我家的成交记录

我爱我家的网站结构貌似比链家的要复杂一点点，它并没有像链家网一样，把成交记录单独分成一个版块，而是把每条成交记录按小区进行了汇总，一级界面显示成交均价，每条的成交价格需要进入各个小区的二级界面，继续往下拖动之后才能查看。

python 抓取房天下某个区的房屋信息用python爬取房价数据_二级_02

网页结构

python 抓取房天下某个区的房屋信息用python爬取房价数据_数据_03

那么，我们想要爬取的每条成交价格，实则在二级界面的详细成交记录框内。

十五家园小区二级界面

以十五家园小区为例，分析一下二级界面的url。url中22700肯定就是该小区的ID，那么我们直接获取不同小区的ID后，对22700数值分别进行替换，就构建了所有小区的url列表，然后分别对不同的url进行请求，以获取每条成交价格行不行呢？结果应该是不行的。

在二级界面的成交框中，每一页只显示了4条成交记录，通过点击第接下来的几页，可以发现网址栏中的url仍然是，所以该成交框是通过异步加载完成的，相当于是另一个独立的网页内嵌在该小区的二级界面中。直接对二级界面的url进行请求，当然就获取不到成交框内的信息。

python 抓取房天下某个区的房屋信息用python爬取房价数据_数据_04

成交框

此处，我是通过抓包的方式来获取成交框的url。单击F12调出开发者工具，依次选择Network→Preserve log→点击第2页→选择Request URL。此处的Request URL应该就是成交框的真实url。

python 抓取房天下某个区的房屋信息用python爬取房价数据_python房价_05

抓包

成交框url5i5j是主域名，communityid=22700就是该小区的ID，page=2代表我们刚刚点击的第2页，communityname=%5%8...就是小区名称十五家园经过UTF-8转码后的表现形式。

一般情况下，如果直接将获取的这个url复制下来后并在另一个窗口中打开，应该是可以显示出我们想获取的成交框中的数据。但是此处，打开这个url却发现是一个空白页面，在python中利用requests库对该url进行请求，也获得不到任何数据。

python 抓取房天下某个区的房屋信息用python爬取房价数据_二级_06

Headers

于是尝试加入headers之后再进行请求。在F12的开发者界面中，将Request Headers下的信息添加进Headers之后，对成交框的url进行请求，发现可以正常显示出成交框内的信息。

python 抓取房天下某个区的房屋信息用python爬取房价数据_python房价_07

加入Headers之后的请求

进一步对成交框的url进行分析，可以发现将&communityname=及以后的内容删掉，也可以正常获得数据；headers中的X-Requested-With: XMLHttpRequest则不能删除，否则就返回的是空白页。

到现在，对网页的分析已经基本完毕！

获取成交数据的大致方向就是将URL: &page=2拆分为3部分第一部分/getdeals?，不用变第二部分communityId=22700，将22700替换成不同小区的ID第三部分page=2，将2换成不同的数值以代表不同的页面对构建的URL进行请求并获取数据问题一如何知道各个小区的ID？

python 抓取房天下某个区的房屋信息用python爬取房价数据_二级_08

审查元素

在一级界面内对十五家园小区的名称进行审查元素后，发现ID是藏在了href中。

十五家园

因此只需要将一级界面中所有小区的ID通过xpath的方式抓取出来即可。

问题二如何知道成交框有多少页？

加入headers对成交框的url进行请求，返回的成交框源代码的末尾处，通过对倒数第二个

标签进行抓取获得。

此处倒数第一个

标签是 "尾页"，倒数第二个标签是 "6"，即最大页面。

python 抓取房天下某个区的房屋信息用python爬取房价数据_python房价_09

MaxPage

整理一下思路就是

python 抓取房天下某个区的房屋信息用python爬取房价数据_二级_10

但是在我爱我家的一级界面中最多只能显示12条小区信息，也就是说一个一级界面的url只能获取12个小区的ID，只有先获取了所有一级界面的URL，才能进一步获得所有小区的ID。

我爱我家一级界面URL/community/n1

再通过不断的点击下一页，可以发现n后面的数字就代表了页数。那么问题就简单了，直接对n后的数值不断的迭代，就获得了所有的一级界面url。

python 抓取房天下某个区的房屋信息用python爬取房价数据_迭代_11

问题真这么简单吗？坑爹的发现，将n后的数值迭代到85时，就不能显示出小区信息了，也就是说通过这个方法只能获得84×15=1260条小区信息，然而总共有5000多条信息。

老办法，通过加入筛选条件，对小区进行分割，此处我还是选择了以价格为条件，人为的将每个条件下的小区数量控制在1260条以下。另外还选择了以行政区域为条件，因为在1万元以下的小区数量还是超过了1260条，因此我继续对其进行了分割。

#p1 [0,10000)#p2 [10000,15000)#p3 [15000,20000)#p4 [20000,25000)#p7 [70000,+∞)start_urls = [...........']

分割完毕之后，另一个问题是如何知道每个条件下的最大页面数量。我们知道，每1页最多只能显示12条小区，只要先知道在当前筛选条件下，一共有多少小区，就可以计算出有多少页。

python 抓取房天下某个区的房屋信息用python爬取房价数据_数据_12

最大小区数量

比如上面这个例子，一共有405个小区，那么就有405/12=33.75，向上取整即34页。

现在，整个流程已经清晰！

python 抓取房天下某个区的房屋信息用python爬取房价数据_二级_13

最大页面数X：用于构建所有一级的界面URL。例如community/xiacheng/p(1~X)ID Y和MaxPage Z用于构建该小区下的所有成交页面URL。例如xchange/getdeals?communityId=Y&page=(1~Z)对不同条件下的一级界面URL进行迭代至最大页数X，获取所有小区的ID，再对各个小区的成交框URL进行接待至最大页面数Z，抓取想要的信息即可。

作者：ISeeMoon

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。