python分组groupby求均值

原创

mob64ca12e60047 2024-06-12 06:27:06 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e60047的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python中使用groupby求均值

在数据处理和分析中，经常需要对数据进行分组并计算每个分组的平均值。Python中的pandas库提供了一个非常方便的方法——groupby函数，可以实现这一功能。在本文中，我们将介绍如何使用groupby函数来对数据进行分组并计算每个分组的平均值。

什么是groupby函数

在pandas库中，groupby函数是一个用于分组数据的函数。通过指定一个或多个列名称，groupby函数可以将数据按照这些列的值进行分组。一旦数据被分组，我们就可以对每个分组进行各种操作，比如计算平均值、求和等。

如何使用groupby函数求均值

假设我们有一个包含学生姓名、科目和分数的数据集。我们想要按照科目对数据进行分组，并计算每个科目的平均分数。下面是一个示例数据集：

学生姓名	科目	分数
张三	数学	85
李四	数学	90
王五	英语	75
赵六	英语	80
孙七	数学	88
周八	英语	85

首先，我们需要导入pandas库并读取数据集：

import pandas as pd

data = {
    '学生姓名': ['张三', '李四', '王五', '赵六', '孙七', '周八'],
    '科目': ['数学', '数学', '英语', '英语', '数学', '英语'],
    '分数': [85, 90, 75, 80, 88, 85]
}

df = pd.DataFrame(data)

然后，我们可以使用groupby函数对数据进行分组，并计算每个科目的平均分数：

avg_score = df.groupby('科目')['分数'].mean()
print(avg_score)

运行以上代码，我们将得到以下输出：

科目
数学    87.666667
英语    80.000000
Name: 分数, dtype: float64

结论

在本文中，我们介绍了如何使用Python中的pandas库中的groupby函数对数据进行分组并求平均值。通过这种方式，我们可以轻松地对数据进行分组分析，了解数据的分布情况，并进行进一步的数据处理和分析。

通过本文的介绍，相信读者对groupby函数的使用有了一定的了解，并可以在实际的数据处理和分析工作中灵活运用这一功能。希望本文对读者有所帮助，谢谢！

gantt
    title 示例数据集分组和求均值

    section 导入数据
    读取数据集               :done, a1, 2022-01-01, 3d
    数据预处理               :done, a2, after a1, 2d

    section 数据分组
    按科目分组               :done, a3, after a2, 2d

    section 计算平均值
    计算每个科目的平均分数   :active, a4, after a3, 2d