可视化练习:Kaggle共享单车项目

项目链接:Bike Sharing Demand | Kagglewww.kaggle.com

1. 提出问题(Business Understanding)

通过历史用车记录结合天气情况来预测华盛顿DC的共享单车项目需求。

2. 数据理解(Data Understanding)

理解数据分为三部分:

1)采集数据:这一部分,根据研究问题,采集数据

2)导入数据:你要分析的数据可能在excel文件,或者数据库中,首先,你需要将数据导入到Python中的数据结构中。

3)查看数据集信息

2.1 采集数据

2.2 导入数据

2.3 查看数据集信息

再看头5行是数据

Kaggle中给出数据说明:

Data field

* datetime -- 年月日小时

* season -- spring=1 , summer=2, fall=3, winter=4

* holiday -- 0=否 , 1=是

* workingday -- 0=否,1=是

* weather -- 1:晴天,2:阴天 ,3:小雨或小雪 ,4:恶劣天气(大雨、冰雹、暴风雨或者大雪)

* temp -- 温度摄氏度

* atemp -- 体感温度,摄氏度

* humidity -- 相对湿度

* windspeed -- 风速

* casual-- 未注册用户租借数量

* registered -- 注册用户租借数量

* count -- 总租借数量

分析

1. 训练数据:

* 共10886行,12列,各字段均无缺失值

* 除时间数据为字符串需要转换为时间序列外,其他数据均为数值类型

* count=registered+casual

2. 测试数据:

* 共6493行,9列,各字段均为缺失值

* 除时间数据为字符串需要转换为时间序列外,其他数据均为数值类型

3. 数据清洗(Data Preparation)

3.1 数据预处理

时间特征处理

对于租车量的需求分析,必然需要通过不同纬度的时间来进行分析:必须创造新的列: 时间hour 天date 周week 月month

在新添加4列后,移除原先的时间列

3.2 特征选择

先看看协方差

可视化分析

分析

count:与温度成正相关,温度适应升高时骑车人数增多

与湿度成负相关,湿度较大人们不愿意骑车

与时间成正相关,一天中租车数量与时间有线性关系

温湿度等相关因素与季节月份有关,需要进一步可视化分析各因素对count的影响

3.2.2 租车人数在各个分类因素变量的关系

画图

箱线图分析每小时租用共享单车的中位数在150左右

秋夏季节气温宜人,租车人数较多

在工作日上下班高峰期租车人数最多,说明其目的主要用于通勤

天气的越好租车人数越多

3.2.3 租车量在各连续变量下的可视化分析

分析:在不同季节中,上下班时间段租车人数最多,同时下班时段租车较上班时段多,除了通勤因素外,下班有更多时间放在娱乐上。

秋夏租车人数较多,可以推导华盛顿天气温暖宜人增加租车需求

更具体地

分析:

五月到十月,气候宜人租车人数最多

注册人户占大多数,以通勤为主

3.2.4 温度、湿度以及风速的影响温度10-30数时,人数会增多,之后因为炎热,人数开始减少

风速越大,骑车人数越少 --大风抑制骑车需求

湿度越大,骑车人数越少 --天气潮湿抑制骑车需求