爬虫数据分析文献综述爬虫数据分析报告

转载

mob64ca14144dde 2023-12-26 17:54:45

文章标签 爬虫数据分析文献综述 html 数据 Line 文章分类 数据分析人工智能

隔了好久都没及时把爬虫后的数据进行处理，干吗去了呢，看了个异步加载网页爬虫以及emmm校园琐事，今天填坑。

上次爬虫后主有六个维度的信息：价格、面积、当前热度，这三个是数值型的；区域、描述、户型，这三个是文本型。

这次并没有对户型和描述做分析，这个放在下次单独学词云的作图。

先对数值型进行分析

df.describe()
    Out[10]: 
                   price       square      popular
    count    8694.000000  8694.000000  8694.000000
    mean     9463.443639    95.332610     2.725213
    std      8854.171512    57.460427     4.084303
    min       600.000000    11.630000     0.000000
    25%      4800.000000    58.330000     0.000000
    50%      6800.000000    81.610000     1.000000
    75%     10500.000000   112.150000     4.000000
    max    130000.000000   682.080000    44.000000

在经过一系列租房市场震荡后符合我们要求结果有8694条。

价格在9463.4元/月，一半的价格是在6800元以下的，价格极差较大[600,13w]；

面积平均95.3平方米，一半的面积小于81.6平方米，75%以下的面积小于112.15平方米，虽然最大到了682平方米的租房面积，112.15以上的还是少数（占25%）；

受欢迎程度来看极差较大[0,44],后面我们来看看到底哪些房源受欢迎，哪些没人看；

这里可以加一列面积的均价：

df['average_price']=df['price']/df['square']
    
    df.describe()
    Out[12]: 
                   price       square      popular  average_price
    count    8694.000000  8694.000000  8694.000000    8694.000000
    mean     9463.443639    95.332610     2.725213      99.250649
    std      8854.171512    57.460427     4.084303      65.722560
    min       600.000000    11.630000     0.000000      19.686589
    25%      4800.000000    58.330000     0.000000      64.365126
    50%      6800.000000    81.610000     1.000000      92.093085
    75%     10500.000000   112.150000     4.000000     123.314479
    max    130000.000000   682.080000    44.000000    4135.338346

租金面价均价99.25元/平方，75%在123元/平方以下，最大到了4135元/平，一个月的租金，这个最大值让我忍不住先去看了下到底何方神圣

从图中可看出，9月北京市各区域的房租均在3500元/月以上，其中最高区域为朝阳区，均价达12695元/月。同时朝阳区也是房源最多的区，超过房源第二的海淀区一倍以上。

朝阳区位与东城区、丰台区、海淀区相毗邻，北连昌平区、顺义区，东与通州区接壤，南与大兴区相邻，幅员面积470.8平方公里，平均海拔34米，是北京市中心城区中面积最大的一个区。全区常住人口308.3万（2008年数据，现在估计会*1.5）

上图可以看出，均价在8000-10000之间的房屋数量最多，其次为4000-8000和1w+的第二梯队，第三梯队为2000-4000，小于2000的很少【哪里有这么好的地方我去租，，，】

据北京市统计局数据，2017年全市居民月人均可支配收入为4769元。

当然考虑到租房中合租行为较多，

另查58同城和赶集网发布的报告，2017年北京人均月租金为2795元。

北京租房者的房租收入比，惊人地接近60%。很多人一半的收入，都花在了租房上。

为了进一步拆解价格，分析单位面积均价特征

上图表明单位面积的均价在50-100最多，100-150其次。按照人家租房花费2795元来计算，均价在50-100的主力军所代表的是人均18.6-27.9平米的住房空间，emmm很多人真的是只租了卧室啊。。怪不得还见过一个卧室分床再出租的┗( ▔, ▔ )┛

从上图可以看出浏览较多，受欢迎的房源还是100平以下的居多，在链家网租房子为了住的还是多数，大平米的浏览都比较少了。

从房源面积来看60-100平房源最多，其次为30-60平的房源，整个供需还是配套的。

Python 数据分析出图练习 end

做完图顺便查了下：

北京房地产中介行业协会在九月和十月还是做出些成绩的

10 月 21 日的新闻：北京市房地产中介行业协会公布的最新数据显示，截至 10 月 20 日， 10 家租赁服务企业累计投放房源133131 套（间），完成公开承诺总量的 1.1 倍。环比 9 月，北京住房租赁市场量、价继续回落，成交量环比下降约 8%

** 最后代码 **

import numpy as np
    import pandas as pd
    from pyecharts import Overlap, Bar, Line, Kline, Pie
    df = pd.read_csv('house price.csv',sep=',',header=None,encoding='utf-8',names=['area','title','price','rtype','square','popular'])
    #dtype = {'area':str,'title':str,'price':int,'rtype':str,'square':float,'popular':int}
    df=df.dropna(axis = 0)
    #df=df[~df['popular'].isin(['nan'])]  备选
    df['price']=df['price'].astype(int)
    df['square']=df['square'].astype(float)
     #清理过后只有8694条有效数据，虽然只爬了链家（自如又爆出举报检测机构），从这家老牌租房网站来看其实北京租房市场也没我之前想象的大，自如蛋壳就更少了。
     #均价为9463.5元/月，中位数为6800。一半的房源价格在6800以下，所有房源的价格极差大[600,130000]
    df['average_price']=df['price']/df['square']
    area = df.groupby(['area'])
    house_com = area['price'].agg(['mean','count'])
    house_com.reset_index(inplace=True)
    area_main = house_com.sort_values('count',ascending=False)
    attr = area_main['area']
    
    v1 = area_main['count']
    
    v2 = area_main['mean']
    line = Line("北京主要区域房租均价")
    
    line.add("房租均价",attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
        mark_point=['min','max'],xaxis_interval=0,line_color='#32CD32',
        line_width=4, mark_point_textcolor='red',mark_point_symbol="",)
    bar = Bar("北京主要区域房屋数量与均价")
    bar.add("数量",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
        xaxis_interval=0,is_splitline_show=False,color='green')
    overlap = Overlap()
    
    overlap.add(bar)
    
    overlap.add(line,yaxis_index=1,is_add_yaxis=True)
    
    overlap.render('北京路段_房屋均价分布图.html')
    #房源价格区间分布图
    
    price_info = df[['area', 'price','average_price']]
    
    #对价格分区
    bins = [0,1000,1500,2000,2500,3000,4000,5000,6000,8000,10000]
    level = ['0-1000','1000-1500', '1500-2000', '2000-3000', '3000-4000', '4000-5000', '5000-6000', '6000-8000', '8000-1000','10000以上']
    price_stage = pd.cut(price_info['price'], bins = bins,labels = level).value_counts().sort_index()
    attr = price_stage.index
    v3 = price_stage.values
    bar2 = Bar("价格区间&房源数量分布")
    
    bar2.add("",attr,v3,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
    
        xaxis_interval=0,is_splitline_show=False)
    
    average_price_stage = pd.cut(price_info['average_price'], bins = bins,labels = level).value_counts().sort_index()
    attr = average_price_stage.index
    v4 = average_price_stage.values
    
    bar3 = Bar("价格区间&房源数量分布")
    bar3.add("",attr,v4,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
    
        xaxis_interval=0,is_splitline_show=False)
    
    overlap = Overlap()
    
    overlap.add(bar2)
    
    overlap.render('价格区间&房源数量分布.html')
    
    
    
    
    
    bins = [0,50,100,150,200,300,500,1000,10000]
    level = ['0-50','50-100','100-150', '150-200', '200-300', '300-500', '500-1000', '1000以上']
    average_price_stage = pd.cut(price_info['average_price'], bins = bins,labels = level).value_counts().sort_index()
    attr = average_price_stage.index
    v4 = average_price_stage.values
    
    bar3 = Bar("面积均价区间&房源数量分布")
    bar3.add("",attr,v4,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
    
        xaxis_interval=0,is_splitline_show=False)
    
    overlap = Overlap()
    
    overlap.add(bar3)
    
    overlap.render('单位面积价格区间&房源数量分布.html')
    
    distribution=[]
    popular_com=df['square'].groupby(df['popular'])
    for i in range(len(list(popular_com.max()))):
        distribution.append([list(popular_com.min())[i],list(popular_com.min())[i],list(popular_com.max())[i],list(popular_com.max())[i]])
    
    kline = Kline("不同受欢迎程度房源的面积分布图")
    kline.add("", list(popular_com.max().index),distribution)
    kline.render('热度面积')
        
    
    #房屋面积分布
    
    bins =[0,30,60,90,120,150,200,300,400,700]
    level = ['0-30', '30-60', '60-90', '90-120', '120-150', '150-200', '200-300','300-400','400+']
    square_level= pd.cut(df['square'],bins = bins,labels = level)
    s = square_level.value_counts()
    attr = s.index
    v5 = s.values
    pie = Pie("房屋面积分布",title_pos='center')
    pie.add(
        "",
        attr,
        v5,
        radius=[40, 75],
        label_text_color=None,
        is_label_show=True,
        legend_orient="vertical",
        legend_pos="left",
    )
    overlap = Overlap()
    overlap.add(pie)
    overlap.render('房屋面积分布.html')

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。