Python 数据分析包知识点
数据分析步骤:
1,提出问题
2,理解数据
3,数据清洗
4,构建模型
5,数据可视化
案例:销售数据分析(朝阳医院销售数据)
1,提出问题:
月均消费次数:月均消费次数=总消费次数 / 月份数
月均消费金额:月均消费金额 = 总消费金额 / 月份数
客单价:客单价=总消费金额 / 总消费次数
客单价(per customer transaction)是指商场(超市)每一个顾客平均购买商品的金额,客单价也即是平均交易金额。
消费趋势,画图:折线图(分组计算和数据可视化课程中验证)
2,理解数据:
1,读取excl数据
(1)路径中最好不要有中文,或者特殊符号啥的,不然路径会提示错误找不到。
最好将文件放到一个简单的英文路径下
(2)使用pandas的read_excel函数读取Ecxcel数据
参数sheet_name:数据在Excel里的哪个sheet下面,这块就写该sheet在excel里的名称
参数dtype=str: 统一先按照字符串读入,之后再转换
2,查看数据信息
3,数据清洗
1,选择子集(本案例不需要子集)
2,列表重命名
3,缺失值处理
python缺失值有3种:
1)Python内置的None值
2)在pandas中,将缺失值表示为NA,表示不可用not available。
3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。
后面出来数据,如果遇到错误:说什么foloat错误,那就是有缺失值,需要处理掉
所以,缺失值有3种:None,NA,NaN
在删除前有数据6578条,删除后,数据还有6575条,说明有3条数据缺失销售时间或者社保卡号
4,数据类型转换
字符串转换为数值(浮点型)
字符转转换为日期数据类型
5,数据排序
ascending=True 表示升序排列,
ascending=True表示降序排列
排序后重新命名行名,使用reset_index,可以将行号修改成从0到N的顺序排列,其中drop=True选项会丢弃原来的索引而设置新的从0开始的索引
6,异常值处理
通过describe方法获取所有这些列的描述信息,排除金额数量为0的负数,经过筛选将那些异常值删除
4,构建模型
1,月均消费次数:月均消费次数=总消费次数 / 月份数,
2,月均消费金额:月均消费金额 = 总消费金额 / 月份数
3,客单价:客单价=总消费金额 / 总消费次数
4,消费趋势,画图:折线图