1.pandas读取数据集时index_col的用法

  • index_col 默认值(index_col = None)——重新设置一列成为index
  • index_col=False——重新设置一列成为index
  • index_col=0——第一列为index

2.pandas 之unique()函数与nunique()函数区别

  • unique()是以 数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)

  • nunique() Return number of unique elements in the object.即返回的是唯一值的个数

例如:
pandas使用小技巧_Pythonpandas使用小技巧_pandas教程_02

3.pandas对于DataFrame的分析

  • 查看各变量的数据类型
    df.dtypes

  • 查看是否有缺失值
    df.info()

  • 显示每个特征的类别数
    df.nunique()

  • 查看数据集的描述,显示很多,均值,标准差,分位数等等**
    df.describe()

  • 显示3/4分位数
    df.quantile(0.75)

  • 显示标准差,样本标准差
    df.std()

4.操作一列数据,把num列的格式转为int

df['num'] = df['num'].apply(lambda x:int(x))

5.去重

直接调用只是返回一个视图,要赋值才能覆盖原来的列,pandas许多时候都是这种情况。
df['num'].drop_duplicates()

6.groupby

week_count = df['count'].groupby(df['week']).sum()
取每个星期week的总数(相同weekcount之和sum())

7.填充缺失值NaN

这里是填充成0:df.fillna(value=0)

8.df.unstack()与df.stack()

groupby([df['1'],df['2']])后会出现层次化索引,把层次化索引重新安排到DataFrame中需要使用unstack()方法,想回去就用stack()