数据清洗是数据分析很关键的一部分主要包括以下步骤

1.选择子集

2.列名重命名

3.删除重复值

4.一致化处理

5.数据排序

6.异常值处理

昨天的excel 表格就成了练手的东西了

原地址 点击就可以链接

#调取数据包import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel(r"C:\Users\bo\casedata\订单数据.xlsx")
df.head()df.shape
(4177, 8)

数据清洗

df0=df.copy()
#先复制一份
#1.选择子集 删除不要的子集
df.drop(["平台来源"], axis=1,inplace=True)
df.head()# 2.列名重命名
#将支付金额改为付款金额
df.rename(columns={'支付金额':'付款金额'},inplace = True)
df.head()#3重复值
df[df.duplicated()]
#如果出现表头表示没有
# 删除代码
# df1=df.drop_duplicates()
# df1.shape
#4.一致化处理
RangeIndex: 4177 entries, 0 to 4176
Data columns (total 7 columns):

订单编号 4177 non-null int64

付款金额 4177 non-null float64

商品 4177 non-null object

价格 4177 non-null float64

类目 4177 non-null object

付款时间 4177 non-null datetime64[ns]

商家名称 4177 non-null object

dtypes: datetime64[ns](1), float64(2), int64(1), object(3)

memory usage: 228.5+ KB

暂无需要处理的#5.数据排序

# df2=df['付款金额'].sort_values(ascending =False)
df2=df.sort_values("付款金额",ascending=True)
df2.head()

6.异常值处理 暂无