一、数据分析步骤:
1、提出问题:要明确问题
2、理解数据:包含三方面,采集数据、导入数据,查看数据集信息
3、数据清洗:选择子集,列名重命名,缺失数据处理,数据类型转换,数据排序,异常值处理
4、构建分析某型:指标分析
5、数据可视化:用图标的方式展示
二、实际操作
1、提出问题:
月均消费次数
月均消费金额
客单价
消费趋势
2、理解数据:
采集数据,导入数据,查看数据集
3、 数据清洗:
选择子集:主要利用切片功能,pandas的数据框功能
列名重命名:利用字典,创建旧命名和薪命名的对应关系,再利用rename进行列名重命名
缺失值处理:两种办法,1、少量缺失值,则直接删除(数据框的dropna),2、大量缺失值,则需建立模型,进行插值方案补充
数据类型转换:1、字符串转化成数值,astype,2、时间处理,函数
数据排序——1、按某列进行排序,sort_values,2、重命名索引行号,reset_index
异常值处理——1、描述统计信息,2、删除异常值,条件判断筛选数据
4、构建分析某型:指标分析
月均消费次数
月均消费金额
客单价
5、数据可视化:用图标的方式展示——留待