在使用Python前,首先要了解数据分析是用来做什么的,数据分析顾名思义就是利用数据解释现象,并分析现象的原因,那用来分析的数据必须是可靠的,才能准确的支持分析结果,但往往在数据收集阶段有许多原因导致数据集较为混乱,所以在拿到数据后首先要进行的就是数据的清洗:数据集多少数据? 包含了什么字段?字段格式是什么? 字段分别代表什么意义?字段之间的关系是什么?可以用做什么分析?或者说能否满足了对分析的要求? 有没有缺失值;如果有的话,缺失值多不多? 现有数据里面有没有脏数据?尤其需要注意人工输入的数据,经常会出现名称写错,多输入空格等等的情况,这些工作一般占据了数据分析60%的时间,磨刀不误砍柴工,只有处理好了数据才能,继续向下进行分析。

以药店分析数据为例:

首先安装需要的工具包pandas,定义一个字典安装工具包定义字典

查看数据的基本信息:有多少行,多少例查看每一列的数据类型

了解了一些基本的信息后,就可以对需要的数据来做手脚了:

1、选择子集

有时候原始数据过于庞大,有很对是不需要的信息,我们就通过子集的方式来减少数据的范围本次案例不需要选择子集,这是一个例子

2、列重命名

将列名称更改

3、缺失数据处理

数据源因为会有记录错误等情况,会导致存在缺失数据,需要删除缺失数据

python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用not available。

3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。删除缺失值,会使索引序号不连续,这里用reset_index重置索引

4、数据类型转换

通过自定义函数,将数据分割并转为一维数据Serise类型

再对销售日期这一列进行赋值修改,得到我们想要的销售日期

再将数据类型调整成我们需要的,便于后续计算

5、数据排序

按照需求对数据进行排序

‘by’:按哪几列排序

‘ascending=True’:升序排列

重新排序后会使索引序号不连续,记得用reset_index重置索引

6、异常值处理

最后使用使用筛选数据的语法来选择我们想要的数据销售数量大于0

以上就是数据清洗的6个步骤