可视化练习:Kaggle共享单车项目
项目链接:Bike Sharing Demand | Kagglewww.kaggle.com
1. 提出问题(Business Understanding)
通过历史用车记录结合天气情况来预测华盛顿DC的共享单车项目需求。
2. 数据理解(Data Understanding)
理解数据分为三部分:
1)采集数据:这一部分,根据研究问题,采集数据
2)导入数据:你要分析的数据可能在excel文件,或者数据库中,首先,你需要将数据导入到Python中的数据结构中。
3)查看数据集信息
2.1 采集数据
2.2 导入数据
2.3 查看数据集信息
再看头5行是数据
Kaggle中给出数据说明:
Data field
* datetime -- 年月日小时
* season -- spring=1 , summer=2, fall=3, winter=4
* holiday -- 0=否 , 1=是
* workingday -- 0=否,1=是
* weather -- 1:晴天,2:阴天 ,3:小雨或小雪 ,4:恶劣天气(大雨、冰雹、暴风雨或者大雪)
* temp -- 温度摄氏度
* atemp -- 体感温度,摄氏度
* humidity -- 相对湿度
* windspeed -- 风速
* casual-- 未注册用户租借数量
* registered -- 注册用户租借数量
* count -- 总租借数量
分析
1. 训练数据:
* 共10886行,12列,各字段均无缺失值
* 除时间数据为字符串需要转换为时间序列外,其他数据均为数值类型
* count=registered+casual
2. 测试数据:
* 共6493行,9列,各字段均为缺失值
* 除时间数据为字符串需要转换为时间序列外,其他数据均为数值类型
3. 数据清洗(Data Preparation)
3.1 数据预处理
时间特征处理
对于租车量的需求分析,必然需要通过不同纬度的时间来进行分析:必须创造新的列: 时间hour 天date 周week 月month
在新添加4列后,移除原先的时间列
3.2 特征选择
先看看协方差
可视化分析
分析
count:与温度成正相关,温度适应升高时骑车人数增多
与湿度成负相关,湿度较大人们不愿意骑车
与时间成正相关,一天中租车数量与时间有线性关系
温湿度等相关因素与季节月份有关,需要进一步可视化分析各因素对count的影响
3.2.2 租车人数在各个分类因素变量的关系
画图
箱线图分析每小时租用共享单车的中位数在150左右
秋夏季节气温宜人,租车人数较多
在工作日上下班高峰期租车人数最多,说明其目的主要用于通勤
天气的越好租车人数越多
3.2.3 租车量在各连续变量下的可视化分析
分析:在不同季节中,上下班时间段租车人数最多,同时下班时段租车较上班时段多,除了通勤因素外,下班有更多时间放在娱乐上。
秋夏租车人数较多,可以推导华盛顿天气温暖宜人增加租车需求
更具体地
分析:
五月到十月,气候宜人租车人数最多
注册人户占大多数,以通勤为主
3.2.4 温度、湿度以及风速的影响温度10-30数时,人数会增多,之后因为炎热,人数开始减少
风速越大,骑车人数越少 --大风抑制骑车需求
湿度越大,骑车人数越少 --天气潮湿抑制骑车需求