python对分类变量重编码 python类别数据处理

转载

mob6454cc782a8c 2023-10-09 23:48:16

文章标签 python对分类变量重编码 python 描述性分析缺失值数据字段 文章分类 Python 后端开发

数据分析时，首先应对数据进行清洗，这里将数据清洗分为重复值处理、缺失值处理、异常值处理三个部分，重复值处理可删除重复的字段，缺失值处理可以用线性插值、填充为0或用均值填充等，异常值处理用描述性分析、散点图、箱形图、直方图查找异常并处理。

本文使用超市商品交易数据，详细介绍重复值处理、缺失值处理、异常值处理的方法，并实际运用数据进行演示，代码操作如下所示。

#导入数据import pandas as pddf=pd.read_csv(r"C:\Users\尚天强\Desktop\超市商品交易.csv",engine="python",encoding="utf-8-sig")df.head()

python对分类变量重编码 python类别数据处理_python 描述性分析

重复值处理

首先对重复值计数。

df.duplicated().value_counts()

python对分类变量重编码 python类别数据处理_字段_02

用drop_duplicates的方法对某几列下面的重复行删除，subset:以某列作为基准列，判断是否重复；keep: 保留哪个字段，fisrt参数保留首次出现的数值；inplace: 是否替换当前数据，True选择替换当前数据。

df.drop_duplicates(subset=["商品码"],keep='first',inplace=True)df.duplicated().value_counts()

python对分类变量重编码 python类别数据处理_数据_03

缺失值处理

通过isnull函数看一下是否有空值，结果是有空值的地方显示为True，没有的显示为False。

df.head(11).isnull()

python对分类变量重编码 python类别数据处理_数据_04

使用info查看各个字段的属性，标记的部分为缺失的部分。

df.info()

python对分类变量重编码 python类别数据处理_python 描述性分析_05

通过isnull().any()查看每一列是否有空值，True返回缺失值。

df.isnull().any()

python对分类变量重编码 python类别数据处理_缺失值_06

用df.isnull().values==True来定位哪几行是有空值的。

df[df.isnull().values==True]

python对分类变量重编码 python类别数据处理_缺失值_07

how='any'只要有一个缺失值就删除，axis=0，删除的是行，默认删除的是行，inplace=True替换原始数据。

df.dropna(how='any', axis=0,inplace=True)df.info()

python对分类变量重编码 python类别数据处理_python对分类变量重编码_08

fillna(0)用0对缺失值进行填充。

df1=df[df.isnull().values==True]df1.fillna(0)

python对分类变量重编码 python类别数据处理_python对分类变量重编码_09

limit用来限定填充的数量。

df1.fillna(0,limit=3)

python对分类变量重编码 python类别数据处理_python对分类变量重编码_10

{ }对不同的列填充不同的值，其中键作为列，值作为缺失值填充的值。

df1.fillna({"售价":0 ,"成交价":0 ,"进价": "#N/A"})

python对分类变量重编码 python类别数据处理_数据_11

method方法使用ffill，表示用前一个值作为填充的值。

df1.fillna(method="ffill")

python对分类变量重编码 python类别数据处理_数据_12

median方法使用中位数的值进行填充。

df1.fillna(df1.median())

python对分类变量重编码 python类别数据处理_字段_13

interpolate表示线性插值。

df[df.isnull().values==True].interpolate() #线性插值

python对分类变量重编码 python类别数据处理_缺失值_14

异常值处理

describe( )对统计字段进行描述性分析，从平均值、标准差，看数据的波动情况，最大值查看数据的极值。

df[['售价','进价']].describe()

python对分类变量重编码 python类别数据处理_字段_15

做出散点图，查看数据中异常的点，图中标记的点就是异常的点。

from matplotlib import pyplot as pltplt.rcParams["font.sans-serif"]='SimHei' #解决中文乱码问题plt.scatter(df["售价"], df["进价"])plt.title("散点图",loc = "center")plt.show()

python对分类变量重编码 python类别数据处理_python对分类变量重编码_16

做出箱线图，反映原始数据分布的特征。

plt.subplot(1,2,1)plt.boxplot(df["数量"],labels = ["数量"])plt.subplot(1,2,2)plt.boxplot(df["售价金额"],labels = ["售价金额"])plt.show()

python对分类变量重编码 python类别数据处理_缺失值_17

做售价金额的折线图，售价金额呈波动趋势。

plt.plot(df["售价金额"])

python对分类变量重编码 python类别数据处理_python对分类变量重编码_18

用箱形图的办法，超过了上四分位1.5倍四分位距或下四分位1.5倍距离都算异常值，用中位数填充。

import numpy as npa = df["售价金额"].quantile(0.75)b = df["售价金额"].quantile(0.25)c = df["售价金额"]c[(c>=(a-b)*1.5+a)|(c<=b-(a-b)*1.5)]=np.nanc.fillna(c.median(),inplace=True)c.describe()

python对分类变量重编码 python类别数据处理_缺失值_19

用标准差和均值，定义超过4倍就算异常值，同样用中位数填充。

a = df["售价金额"].mean()+df["售价金额"].std()*4b = df["售价金额"].mean()-df["售价金额"].std()*4c = df["售价金额"]c[(c>=a)|(c<=b)]=np.nanc.fillna(c.median(),inplace=True)c.describe()

python对分类变量重编码 python类别数据处理_python对分类变量重编码_20