pyspark 分组聚合agg 在使用collect_list 传入两列数据

原创

mob64ca12e7f20c 2024-01-14 05:16:42 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e7f20c的原创作品，请联系作者获取转载授权，否则将追究法律责任

pyspark分组聚合agg使用collect_list传入两列数据

简介

在pyspark中，分组聚合是一项经常使用的操作，可以对数据进行聚合计算，例如求和、计数、平均值等。其中，collect_list函数可以用于将指定的列中的数据收集为一个列表。本文将介绍如何在pyspark中使用分组聚合agg函数结合collect_list函数传入两列数据的方法。

流程概述

下面是整个流程的概述，我们将在后续的部分中详细介绍每个步骤的具体操作。

stateDiagram
    [*] --> 分组聚合
    分组聚合 --> agg操作
    agg操作 --> collect_list传入两列数据

实现步骤

步骤1：创建SparkSession对象

首先，我们需要创建一个SparkSession对象，它是与Spark进行交互的入口点。

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("pyspark_agg_collect_list").getOrCreate()

步骤2：读取数据

接下来，我们需要从数据源中读取数据。

# 读取数据源并创建DataFrame
df = spark.read.csv("data.csv", header=True, inferSchema=True)

步骤3：分组聚合

在这一步骤中，我们将使用groupBy函数对指定列进行分组，并使用agg函数进行聚合操作。

# 分组聚合操作
grouped_df = df.groupBy("group_column").agg(F.collect_list("column1").alias("list1"), F.collect_list("column2").alias("list2"))

步骤4：查看结果

最后，我们可以使用show方法查看聚合后的结果。

grouped_df.show()

完整代码

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

# 创建SparkSession对象
spark = SparkSession.builder.appName("pyspark_agg_collect_list").getOrCreate()

# 读取数据源并创建DataFrame
df = spark.read.csv("data.csv", header=True, inferSchema=True)

# 分组聚合操作
grouped_df = df.groupBy("group_column").agg(F.collect_list("column1").alias("list1"), F.collect_list("column2").alias("list2"))

# 查看结果
grouped_df.show()

状态图

stateDiagram
    [*] --> 分组聚合
    分组聚合 --> agg操作
    agg操作 --> collect_list传入两列数据

类图

classDiagram
    DataFrame --> groupBy
    DataFrame --> agg
    agg --> collect_list

结论

在本文中，我们介绍了在pyspark中如何使用分组聚合agg函数结合collect_list函数传入两列数据。首先，我们创建了一个SparkSession对象来与Spark进行交互。然后，我们读取了数据源并创建了一个DataFrame。接下来，我们使用groupBy函数对指定列进行分组，并使用agg函数进行聚合操作。最后，我们查看了聚合后的结果。希望本文对你理解和使用pyspark中的分组聚合agg操作有所帮助。