python group命令 groups python

转载

langrisser 2023-10-22 23:06:14

文章标签 python group命令 dataframe groupby groupby python pandas groupby pandas groupby count 文章分类 Python 后端开发

本文作者：孙晓玲

作为炙手可热的Python数据分析包，Pandas具有很多好用的数据类型，利如Series、DataFrame、Categorical。在数据分析过程中，描述数据是对具有某些特征的列进行的，分析结果也需要对具体的组进行对比分析，GroupBy就是能满足这种需求的一种分组机制。GroupBy的应用包括三个流程：

(split - apply - combine)
Splitting: 将数据按需求分组；
Applying: 对每个小组进行函数操作；
Combining: 合并结果。

接下来我将对其进行介绍。首先，导入所需库与所用数据。这里用到的数据为泰坦尼克号遇难乘客数据集，为了展示的方便，对导入的数据进行处理只保留所感兴趣的数据，查看数据基本概貌。

import pandas as pdimport numpy as npror = pd.read_csv('D:/titanic.csv')titanic=ror.iloc[:,0:6]titanic.head()

python group命令 groups python_pandas groupby count

一、分组机制的产生

将数据对乘客所在船舱等级(“pclass”)进行分组，使用分组函数 groupby并对查看分组结果。

my_group1=titanic.groupby('pclass')my_group1

python group命令 groups python_python group命令_02

可以发现，此时数据不再是DataFrame数据，而是一种DataFrameGroupBy对象。顾名思义由DataFrame转换而来的分组对象为DataFrameGroupBy，由Series转换的分组对象就是SeriesGroupBy。按my_group1分组结果继续计数，发现年龄(“age”)列具有数据缺失。

my_group1.count()

python group命令 groups python_groupby python_03

如果想根据分组对具体的某一列数据进行分析，在分组后选择所需的列即可。还可以通过传入 agg方法选择所需的函数。这里以不同性别下的存活情况为例，输出存活率与存活人数。

my_group2=titanic.groupby('sex')sex_sur=my_group2['survived'].agg(['mean','count'])sex_sur

python group命令 groups python_dataframe groupby_04

我在学习分组机制中，惊喜地发现分组机制下的绘图真的很好用。如下绘制了不同舱级下年龄的部分描述性统计结果的柱状图。图的结果意义不大，仅作为演示，这里用到了Ipython中利用魔术命令调用matplotlib库绘图的快捷方法。

%matplotlib inlinemy_group1['age'].agg(['mean','std','count','max']).plot(kind='bar')

python group命令 groups python_groupby python_05

上面介绍了单层的数据分组，通过向groupby函数传递多个列，可以实现多层分组，实现数据透视表功能。这里以舱级(“pclass”)为第一层分组、性别(“sex”)为第二层分组输出分组数据的均值与计数。

my_group2=titanic.groupby(['pclass','sex'])my_group2.agg(['mean','count'])

python group命令 groups python_python group命令_06

为了识别的方便，可以自己将agg方法调用的函数重命名为好理解的函数名，以一对圆括号括住 (‘new name’, ‘function’) 便可实现。

my_group2=titanic.groupby(['pclass','sex'])my_group2.agg([('均值','mean'),('计数','count')])

python group命令 groups python_pandas groupby_07

二、填充缺失值

Groupby机制的应用范围很广，接下来我将介绍用其填充缺失值的方法。首先随机生成一个具有缺失值的学生成绩数据。

data=pd.DataFrame({    'name':['Mary','Andy','Bob','Tom','Alice','James','Mike','Lily'],        'sex':['female','female','man','man','female','man','man','female'],       'score':np.random.randn(8)})data[::2]['score']= np.nandata

python group命令 groups python_dataframe groupby_08

1.利用均值填充

面对数据缺失，常用的填充方法是利用均值填充缺失值。

data.groupby('sex').mean()

python group命令 groups python_python group命令_09

fill_mean = lambda g: g.fillna(g.mean())data.groupby('sex').apply(fill_mean)

python group命令 groups python_dataframe groupby_10

2.利用固定值填充

有时候，我们想将不同类的缺失值填充为固定值，就可以这样进行处理。

fill_values = {'female': 0.5, 'man': 0.75}fill_func = lambda g: g.fillna(fill_values[g.name])data.groupby('sex').apply(fill_func)

python group命令 groups python_dataframe groupby_11

Pandas的GroupBy机制的基本介绍就到这里了~

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：如何在虚拟机上查看hive的全分布式安装是否安装成功查看虚拟机列表

下一篇：头歌python实训运算符答案头歌c语言实训作业答案

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯