文章目录
1.pandas读取数据集时index_col的用法
-
index_col
默认值(index_col = None
)——重新设置一列成为index
值 -
index_col=False
——重新设置一列成为index
值 -
index_col=0
——第一列为index
值
2.pandas 之unique()函数与nunique()函数区别
-
unique()
是以 数组形式(numpy.ndarray
)返回列的所有唯一值(特征的所有唯一值) -
nunique()
Return number of unique elements in the object
.即返回的是唯一值的个数
例如:
3.pandas对于DataFrame的分析
-
查看各变量的数据类型
df.dtypes
-
查看是否有缺失值
df.info()
-
显示每个特征的类别数
df.nunique()
-
查看数据集的描述,显示很多,均值,标准差,分位数等等**
df.describe()
-
显示3/4分位数
df.quantile(0.75)
-
显示标准差,样本标准差
df.std()
4.操作一列数据,把num列的格式转为int
df['num'] = df['num'].apply(lambda x:int(x))
5.去重
直接调用只是返回一个视图,要赋值才能覆盖原来的列,pandas
许多时候都是这种情况。df['num'].drop_duplicates()
6.groupby
week_count = df['count'].groupby(df['week']).sum()
取每个星期week
的总数(相同week
的count
之和sum()
)
7.填充缺失值NaN
这里是填充成0:df.fillna(value=0)
8.df.unstack()与df.stack()
groupby([df['1'],df['2']])
后会出现层次化索引,把层次化索引重新安排到DataFrame
中需要使用unstack()
方法,想回去就用stack()
。