不少毕业生在找实习/工作的同时都要面临“租房”这一大难题。根据相关的行业报告,2018年中国在线短租用户规模达到1.47亿人,2020年有望突破3亿人,其中有大量租房需求的高校毕业生(“毕租族”)人数正在逐年上升。目前租赁房源出现向一线城市集中的趋势,随着90后“只租不买”的观念逐渐流行,以及租房政策的一步步完善,未来北上深等一线城市租房住的人群比例或将超过40%。在如此大规模的租房市场需求的驱动下,在线租房平台更是如雨后春笋般蓬勃发展。更多的年轻人不再通过中介租房,转而在线上平台选择房源。

不仅如此,租房的模式也发生了变化。传统的租房大多会选择整租,即把整套房子租下来,不与他人或房东共享。但是大多数房源一般都有2个以上的卧室,对于很多租客来说,整租一整套房自己住未免太奢侈,整租之后再自己找合适的室友又过于麻烦。于是,为了让经济条件有限的租客更方便地租房,合租这一模式开始兴起。各平台将原本整租房子中的各个房间拆开单独出租,在出租页面上提供已入住其他房间租客的基本信息(如性别、工作等),同样对于这套房有兴趣的人就可以在线上更容易地租到其中适合自己的房间。对租客而言,只租一个房间大大降低了经济压力,但同时因为各个房间出租的日期和租期不一定相同、租客彼此不认识、房源的卫生间个数有限等原因,选择合租的租客普遍也要面临着室友不稳定、安全和私密性受限、需要与他人共用卫生间、阳台、厨房等公共空间的问题。

2019租房大数据的报告显示,有85%的年轻租客选择合租。面对海量的房源,众多的合租用户怎么才能找到物美价廉的合租房呢?在租房时,租客对目标房源会有两部分的需求,一部分是硬性需求,如房源在工作单位的城区的地铁站附近;另一部分是可调节的需求,如房间在10平方米以上、室友不要太多等。在给定这些需求的前提下,租客除了“货比三家”,根据经验来寻找性价比最高的房子之外,运用市场数据建立合理的模型,模拟租房市场的定价机制是更为科学客观的方法。通过数学模型,一方面,租客能对目标房源的价格均值有定量的了解,并据此来判断各待选房源的价格是否在合理的波动区间内;另一方面,租客还能知道可调节的这部分需求对于房租的增减具体有怎样的影响,再做出理性的取舍。

因此,为了探究各种因素对于合租房房租的影响,本文的数据来源于某租房平台,共采集了北京市某年某月5149条合租房源的信息。由于我们采集的是合租房间的数据,若同一套房中有多个待租的房间,这些房间在本案例的数据中会对应多条数据,每一条数据对应其中一个合租房间,并且这些房间的数据中房源整体的信息是相同的(如房屋结构、地理位置等),但租赁面积、月租金是不同的。在后续的分析中,我们把月租金作为因变量,将其余9个解释变量分为内部结构(租赁房间面积、租赁房间类型、卧室数、卫生间数、厅数、供暖方式)和外部条件(所在楼层、所在城区、邻近地铁)两类。我们将首先通过描述性分析探寻各个变量对于房租的影响,在此基础上建立线性回归模型,用量化的方式尝试解释合租房价格的市场形成机制,给广大合租用户提供一定的参考。

01 PART

数据介绍

本文将租客最关心的月租金作为因变量,单位为元。注意到,由于探讨的是合租房间,这里的租金是指租客每个月租下合租房中一个房间的金额,而非整套房子的价格。在选择合租房间时,租客一方面要通过平台提供的房屋结构平面图考虑房源的内部结构是否合理,一方面还要考虑房源所处的地段等是否合适。因此我们将解释变量分为内部结构(6个变量)和外部条件(4个变量)两大类。具体的变量说明如表1所示。

表1:数据变量说明表




数据分析与可视化 租房价格分析_数据


其中,内部结构由6个变量组成:首先是租赁房间面积和租赁房间类型。这两个变量是合租房中某个待租房间的性质。租赁房间面积的单位是平方米,其大小直接决定了租客能获得多少专属自己的空间,因此面积越大的房间需要支付的租金也越多。租赁房间类型主要是指这个房间是主卧(主人房)还是次卧,主卧的面积一般会大于次卧,且主卧房间内拥有独立阳台甚至独立卫生间的可能性较大,故主卧的租金普遍也高于次卧。其次是卧室数、厅数、卫生间数。这三个变量是合租房整套房的信息,是从通常看到的房屋描述中“4房1厅1卫”的类似信息中拆分而得。大多数的合租房是将原本一套房中的不同房间拆分出租,基本不改变房源本身的结构。虽然租客只租赁一个房间,但是房源整体结构对于租客的生活舒适程度有很大的影响。具体而言,厅数越多说明房源的面积越大,一般拥有越多的厅同时意味着卧室数也越多。而卧室数的多少直接关系着合租室友的多少,一方面,人员越多意味着安全性和私密性越弱,另一方面也说明有更多人平摊物业费等公共费用,因此推测卧室数和厅数与房租呈负相关。而卫生间数则相反,卫生间越多说明合租者能更便捷的洗漱、如厕、淋浴等,减少排队等厕所的情形,推测租金会因此提高。最后是供暖方式。供暖方式有集中供暖和自采暖两种,北京的冬天暖气不可或缺,集中供暖保证了暖气来源,省去了租客自行采暖的麻烦,故猜测集中采暖的房源租金会更高一些。

而外部条件由3个变量组成:第一个是所在楼层,本案例获取数据的平台提供了低、中、高三种楼层范围的信息。有不少合租房仍然是楼梯楼,因此住在低楼层生活更为方便,猜测低楼层的租金较高。第二个是是否邻近地铁,本报告定义与地铁距离小于1.5km为“邻近地铁”。对于大多数租客来说,地铁可谓是每天上下班的必要交通工具,房源在距离地铁站步行10-15分钟以内的地方意味着交通较为便捷,因此推测房租也会更贵。第三个是所在城区,西城、海淀等学校和单位密集的中心城区一般生活更方便,所以房租普遍而言高于其他周边城区。

在这些变量中,对于大多数租客来说,内部结构中的“供暖方式”和外部条件中的“所在城区“、“邻近地铁“可能是硬性需求,猜测对于房租的影响是比较大的,如在海淀区的单位上班的租客会想:“我得在海淀区找一个知春路地铁口的有集中采暖的房间”。而租赁面积、卧室数、厅数、卫生间数、所在楼层这些变量多数情况下属于可调节需求。如在刚才的基础上,该租客可能对于房间还有一些其他期望,如“我希望是一个较大的主卧,室友不超过3个,在低楼层可以少爬楼梯”等等,这些需求是弹性的,必要时可以做出妥协,相对来说对房租的影响小一些。那么,如此众多的因素具体如何影响合租房的房租将会是本案例希望解答的重要问题。

02 PART

描述性分析

接下来进行数据的描述性分析,初步判断数据各变量与月租金的关系是否与常理相符,为后续建立模型进行定量分析打下基础。

首先,合租房间的月租金是本案例最关心的问题。从直方图来看,合租房的月租金分布右偏,大多集中在1500-5000这一价格区间,其中均值为2798元,中位数为2690元。由于出租的是合租房间,租赁房间的面积最大不超过30平方米,10平米左右的房源最多,均值为12.85平方米。租赁房间面积与月租金的相关系数约为0.44,呈正相关关系,即合租房的面积越大租金越贵,符合常规认知。


数据分析与可视化 租房价格分析_数据_02

图1:合租房月租金直方图


数据分析与可视化 租房价格分析_数据分析与可视化 租房价格分析_03

图2:合租房租赁面积直方图


其次关注房源的内部结构。从图3来看,一方面,3个卧室的房源最多,5个以上卧室的“豪宅”很少,卧室数越少的房源的房间越贵。而图4显示,97%的合租房源仅有一个卫生间,供所有租客共用,但拥有两个卫生间的房源月租明显较高。


数据分析与可视化 租房价格分析_线性回归_04

图3:不同卧室数租金箱线图 图4:不同卫生间数租金箱线图


在此基础上,合租房间中的“老大”,也就是主卧(主人房),可谓是抢手货。主卧一般是面积最大的,其平均面积有15.7平方,但次卧仅10.6平方。从箱线图来看,主卧的房租也确实比次卧高一截,次卧的月租金均值2630元,主卧则要比次卧多出400元左右。


数据分析与可视化 租房价格分析_数据分析与可视化 租房价格分析_05

图5:不同租赁房间租金箱线图


接下来考虑房源外部条件。首先是所处城区,从图6可以明显看出:1)数量上来看,朝阳、丰台、通州的房源较多,而东城、西城的房源偏少;2)房租高低来看,中心城区(海淀、东城、西城、朝阳)比偏远城区(昌平、大兴、房山、顺义、通州等)的月租金高,其中西城区的月租金中位数最高,而房山区最低。


数据分析与可视化 租房价格分析_线性回归_06

图6:不同城区租金箱线图


其次是邻近地铁与否,从图7来看,邻近地铁的房源较多,仅16%的房源是远离地铁站的。并且,邻近地铁的房源房租明显较高。邻近地铁的房源月租金均值2865元,而非邻近地铁的房源均值是2439元,相差426元,差距较大。


数据分析与可视化 租房价格分析_拿到串口的数据如何解析_07

图7:是否邻近地铁的租金箱线图


03 PART

模型建立

为了更深入地分析各因素对于合租房房租的影响,接下来建立合租房月租金关于房源内部结构和外部条件相关变量的多元线性回归模型,使用定量化的方式更为精细地刻画两方面因素的影响作用大小,尝试给出不同合租房合理的价格波动范围。

为此,本文以合租房月租金为因变量,以租赁房间面积、租赁房间类型、卧室数、卫生间数、厅数、供暖方式、在楼层、所在城区、邻近地铁9个变量作为解释变量,建立多元线性回归模型。对多元线性回归模型进行F检验,得到p值小于0.05,应拒绝模型系数全部为0的零假设,说明该回归模型显著。模型调整后的R方值为0.6453。线性回归模型的相关参数估计以及检验结果如表2所示。通过检查分析每一个解释变量的t检验结果,可以发现除了租赁房间类型和所在楼层这两个变量以外,厅数在5%的水平下显著不为0,其他的系数估计都在1%的水平下显著不为0。推测这两个变量不显著主要是因为:1)本文采集的数据中,主卧和次卧的区别主要是面积大小,从图8来看,主卧的面积普遍大于次卧,故其影响在本模型中主要由租赁房间面积这一变量代为解释,租赁房间类型不显著;2)一般情况下,楼梯房低楼层的房源因居住方便,租金会比高中楼层的房源低,而电梯房却不一定。由于受到数据的限制,未能采集到是否装电梯、具体楼层等变量,猜测房源中含有一部分电梯房,故所在楼层的高低楼层未能有显著差异。


数据分析与可视化 租房价格分析_线性回归_08

图8:主/次卧房间面积箱线图


表2:线性回归系数表


数据分析与可视化 租房价格分析_数据分析与可视化 租房价格分析_09


根据表2,首先关注估计系数的正负情况,可以看到,数值型变量中与房租正相关的显著影响因素有:租赁房间面积、卫生间数;与房租负相关的显著影响因素则有卧室数、厅数,均和先前的推测相符。定性变量中,供暖方式为集中供暖、邻近地铁的房源比自采暖、远离地铁的房源贵。由于城区是多分类的变量,以石景山为基准,房租比其高的城区有:朝阳、东城、丰台、海淀、西城,房租比其低的城区有:大兴、房山、顺义、通州,昌平与石景山的房租则无显著差异,基本也符合中心城区的房租高于周边城区的猜测。在控制其他变量不变的情况下,详细解读如下:

从房源内部结构来看,首先,对房租有正向影响的变量中:租赁房间面积每增加一个平方,月租金平均增加77元,2个卫生间的房源比1个卫生间的房源月租金平均增加182元,集中供暖的房源比自采暖的房源每个月平均贵156元。这是符合预期的,舒适度越高的合租房房租越贵。其次,对房租有负向影响的变量中:每增加一间卧室,月租金平均减少91元;2个厅的房源比1个厅的房源月租金平均减少168元。也即同住的室友人数越多的房源越便宜,符合常理。

从房源外部条件来看,针对所在城区这一变量,房山区的房源租金最低,西城区和海淀区的最高。以石景山为基准,西城和海淀区每个月分别比石景山高出939元和879元,可以看出不同城区的房价之间有非常大的差别。同时,出行便利的房源的租金更高,可以看到邻近地铁的房源比非邻近地铁的房源要贵很多,每个月平均贵280元。

跟据上述结果,在众多因素中,房源外部条件比内部结构对于租金的影响更大,说明合适的地段、交通是否便利等为第一考虑要素,而这些一般也正是租客的硬性需求。接下来才是对于生活的私密性、舒适度有影响的一些可调节需求,与之前的推测相符。并且,在可调节的需求中,卫生间数对于房租的影响是最大的,多一个卫生间每个月平均需要多付182元,因此当经济条件有限时,租客可能得优先放弃多个卫生间的类似房源。

04 PART

总结与讨论

本文考虑了一些常见影响因素对于北京合租房房价的影响,对于不同条件房源的价格形成机制有初步的认识。主要结论归纳如下:(1)租赁房间面积、卫生间数与房租正相关;(2)卧室数、厅数与房租负相关;(3)在中心城区邻近地铁口且有集中供暖条件的房源最贵。但是,由于采集的数据有限,一方面本文仅考虑了北京市某租房平台上的数据,未能覆盖北京市的所有合租房源,结果可能不够准确,其结果可能也不适用于其他城市;另一方面,在文中未能考虑租期长短、是否支持分期付款、押金模式、是否安装电梯等其他在租房中较为重要的影响因素,因此仍存在很大的改进空间。