数据清洗是数据分析很关键的一部分主要包括以下步骤
1.选择子集
2.列名重命名
3.删除重复值
4.一致化处理
5.数据排序
6.异常值处理
昨天的excel 表格就成了练手的东西了
原地址 点击就可以链接
#调取数据包import pandas as pd
import matplotlib.pyplot as plt
df=pd.read_excel(r"C:\Users\bo\casedata\订单数据.xlsx")
df.head()df.shape
(4177, 8)
数据清洗
df0=df.copy()
#先复制一份
#1.选择子集 删除不要的子集
df.drop(["平台来源"], axis=1,inplace=True)
df.head()# 2.列名重命名
#将支付金额改为付款金额
df.rename(columns={'支付金额':'付款金额'},inplace = True)
df.head()#3重复值
df[df.duplicated()]
#如果出现表头表示没有
# 删除代码
# df1=df.drop_duplicates()
# df1.shape
#4.一致化处理
RangeIndex: 4177 entries, 0 to 4176
Data columns (total 7 columns):
订单编号 4177 non-null int64
付款金额 4177 non-null float64
商品 4177 non-null object
价格 4177 non-null float64
类目 4177 non-null object
付款时间 4177 non-null datetime64[ns]
商家名称 4177 non-null object
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 228.5+ KB
暂无需要处理的#5.数据排序
# df2=df['付款金额'].sort_values(ascending =False)
df2=df.sort_values("付款金额",ascending=True)
df2.head()
6.异常值处理 暂无