spark dataframe groupby agg 方法 spark dataframe dataset

转载

mob6454cc71b244 2024-04-02 12:59:12

文章标签 spark sql big data SQL 数据 文章分类 Spark 大数据

从今天开始学习 Spark SQL。首先了解一下 Spark SQL。官网的描述如下：

Spark SQL is Apache Spark’s module for working with structured data.

翻译一下就是：Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。

今天我们先学习一下 DataFrame 和 Dataset。学习之前可以点击下面链接回顾一下之前的文章，了解一下 RDD。
Spark 的三大数据结构

1.DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame 与 RDD的主要区别在于：

DataFrame 带有 schema 元信息，所表示的二维表数据集的每一列都带有名称和类型。
schema 元信息使得 Spark SQL 得以洞察更多的结构信息，从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。
RDD 无从得知所存数据元素的具体内部结构，Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
DataFrame 支持嵌套数据类型（struct、array 和 map）。
从 API 易用性的角度上看，DataFrame API 提供的是一套高层的关系操作，比函数式的 RDD API 要更加友好，门槛更低。

具体差别可以看下图：

spark dataframe groupby agg 方法 spark dataframe dataset_spark

我们可以把DataFrame 当做数据库中的一张表来对待。DataFrame 也是懒执行的，但性能上比 RDD 要高，主要原因：优化的执行计划，即查询计划通过 Spark catalyst optimiser 进行优化。比如下面一个例子:

users.join(events, users("id") === events("uid"))
     .filter(events("date") > "2015-01-01")

logical plan 的优化过程：

spark dataframe groupby agg 方法 spark dataframe dataset_SQL_02

图中构造了两个 DataFrame，将它们 join 之后又做了一次 filter 操作，直接执行的效率是不高的。因为 join 是一个代价较大的操作，也可能会产生一个较大的数据集。如果我们能将 filter 下推到 join下方，先对 DataFrame 进行过滤，再 join 过滤后的较小的结果集，便可以有效缩短执行时间。而 Spark SQL 的查询优化器正是这样做的。简而言之，逻辑查询计划优化就是一个利用基于关系代数的等价变换，将高成本的操作替换为低成本操作的过程。

可以看一下执行时间的对比，差距还是挺明显的：

spark dataframe groupby agg 方法 spark dataframe dataset_spark_03

说明：

reduceByKey：可以将数据按照相同的 Key 对 Value 进行聚合。例如：可以进行 WordCount。

// 函数签名
def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

// 举例
val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))
val dataRDD2 = dataRDD1.reduceByKey(_+_)
val dataRDD3 = dataRDD1.reduceByKey(_+_, 2)

groupbyKey：将数据源的数据根据 key 对 value 进行分组。例如：可以进行 WordCount。

// 函数签名
def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

// 举例
val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))
val dataRDD2 = dataRDD1.groupByKey()
val dataRDD3 = dataRDD1.groupByKey(2)
val dataRDD4 = dataRDD1.groupByKey(new HashPartitioner(2))

reduceByKey 和 groupByKey 的区别：

从 shuffle 的角度：reduceByKey 和 groupByKey 都存在 shuffle 的操作，但是 reduceByKey 可以在 shuffle 前对分区内相同 key 的数据进行预聚合（combine）功能，这样会减少落盘的数据量，而 groupByKey 只是进行分组，不存在数据量减少的问题，reduceByKey 性能比较高。
从功能的角度：reduceByKey 其实包含分组和聚合的功能。groupByKey 只能分组，不能聚合，所以在分组聚合的场合下，推荐使用 reduceByKey，如果仅仅是分组而不需要聚合。那么还是只能使用 groupByKey。

2.Dataset

Dataset 是分布式数据集合。Dataset 是 Spark 1.6 中添加的一个新抽象。特点：

是 DataFrame API 的一个扩展，是SparkSQL最新的数据抽象。
拥有 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 Spark SQL 优化执行引擎的优点，即具有类型安全检查和 DataFrame 的查询优化特性；
Dataset 可以使用功能性的转换（操作map，flatMap，filter等等）。
用样例类来对 Dataset 中定义数据的结构信息，样例类中每个属性的名称直接映射到 Dataset 中的字段名称。
Dataset是强类型的，比如可以有Dataset[Car]，Dataset[Person]。
DataFrame 是 Dataset 的特列，DataFrame = Dataset[Row] ，所以可以通过 as 方法将 DataFrame 转换为 Dataset。Row 是一个类型，跟 Car、Person 这些的类型一样，所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序。