python dataframe 按多个条件取子数据集 dataframe按条件计数

转载

mob64ca13f446df 2023-09-26 15:29:56

文章标签 数据分析数据字符串方差 文章分类 Python 后端开发

1、常用函数说明

python dataframe 按多个条件取子数据集 dataframe按条件计数_数据分析

在df中使用统计函数，其实很简单，我们主要关注以下3点，就没问题：

① 了解每个函数的具体含义是什么；
② 不管是Series还是DataFrame，默认都是自动忽略NaN值，进行运算的；
③ DataFrame有行、列区分，因此在使用统计函数的时候，一般是结合axis=0或者axis=1参数对df中的哪一行、哪一列进行操作；

注意：axis的具体含义，在操作DataFrame时极其重要，因此不要死记硬背，理解原理后，就永远忘记不了。要记住不管是numpy还是pandas中，aixs的含义都是一致的。

2、sum、mean、count、max、min

这五个函数属于最常用的几个函数，在mysql中叫做“聚合函数”(只不过mean在mysql中叫做avg)，我们以sum函数为例进行说明。

df = pd.read_excel(r"C:\Users\xxx\Desktop\test.xlsx",sheet_name=2)
display(df)

# 重置索引
df = df.set_index("name")
df.sum(axis=1)
df.sum(axis=0)

结果如下：

python dataframe 按多个条件取子数据集 dataframe按条件计数_数据分析_02

3、median、abs、mod、prod、var、std

# 我们就用一列来讲述这几个函数的用法
df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)],
                   "score":[2,3,4,4,5,6,7,7,8]})
display(df)
# 求该列数据的中位数
df["score"].median(axis=0)
# 求该列数据的每个值除以3得到的余数
df["score"].mod(3,axis=0)
# 求该列数据的连乘积
display(2*3*4*4*5*6*7*7*8)
df["score"].prod(axis=0)
# 求该列数据的方差
x = df["score"].var(axis=0)
display(x)
# 求该列数据的标准差
y = df["score"].std(axis=0)
display(y)
# 标准差等于方差的开方
np.sqrt(x) == y

结果如下：

python dataframe 按多个条件取子数据集 dataframe按条件计数_方差_03

注意：这一组函数中，需要注意的是mod函数的用法，里面需要传入一个值，作为除数。

4、argmax和idxmax、argmin和idxmin

argmax和idxmax是一组，用于返回一组数据中最大值的下标。argmin和idxmin是一组，用于返回一组数据中最小值的下标。但是当我们使用argmax和argmin的时候，会出现一个提示，告诉我们这个函数以后会被idxmax和idxmin代替，因此我们只需要掌握idxmax和idxmin的用法即可。

df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)],
                   "score":[2,3,4,4,5,6,7,7,8]})
display(df)

df["score"].idxmax(axis=0)
df["score"].idxmin(axis=0)

结果如下：

python dataframe 按多个条件取子数据集 dataframe按条件计数_方差_04

5、unique：求一组数据中的唯一值

对于unique的使用，需要特别注意。unique函数是针对Series的操作，是针对于df的某一行，或者某一列进行操作，因此没有axis参数。unique不仅可以针对数字去重，还可以针对字符串去重。

df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)],
                   "score":[2,3,4,4,5,6,7,7,8]})
display(df)

df["score"].unique()

结果如下：

python dataframe 按多个条件取子数据集 dataframe按条件计数_数据分析_05

6、value_counts：求一组数据中每个值出现的次数

(很重要)

value_counts不仅可以统计一组数字中，不同值出现的次数，还可以统计一组字符串中，不同值出现的次数。

df = pd.DataFrame({"id":["00{}".format(i) for i in range(1,10)],
                   "eat_hand":["right","right","left","right","left","right","right","right","left"],
                   "score":[2,3,4,4,5,6,7,7,8]})
display(df)

df["score"].value_counts()

结果如下：

python dataframe 按多个条件取子数据集 dataframe按条件计数_数据_06

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android12 dialog问题 android12 手机

下一篇：class python 抽象类 python抽象类定义

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯