从今天开始学习 Spark SQL。首先了解一下 Spark SQL。官网的描述如下:

Spark SQL is Apache Spark’s module for working with structured data.

翻译一下就是:Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。

今天我们先学习一下 DataFrame 和 Dataset。学习之前可以点击下面链接回顾一下之前的文章,了解一下 RDD。
Spark 的三大数据结构

1.DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD的主要区别在于:

  • DataFrame 带有 schema 元信息,所表示的二维表数据集的每一列都带有名称和类型。
  • schema 元信息使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。
  • RDD 无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
  • DataFrame 支持嵌套数据类型(struct、array 和 map)。
  • 从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。

具体差别可以看下图:

spark dataframe groupby agg 方法 spark dataframe dataset_spark

我们可以把DataFrame 当做数据库中的一张表来对待。DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。比如下面一个例子:

users.join(events, users("id") === events("uid"))
     .filter(events("date") > "2015-01-01")

logical plan 的优化过程:

spark dataframe groupby agg 方法 spark dataframe dataset_SQL_02

图中构造了两个 DataFrame,将它们 join 之后又做了一次 filter 操作,直接执行的效率是不高的。因为 join 是一个代价较大的操作,也可能会产生一个较大的数据集。如果我们能将 filter 下推到 join下方,先对 DataFrame 进行过滤,再 join 过滤后的较小的结果集,便可以有效缩短执行时间。而 Spark SQL 的查询优化器正是这样做的。简而言之,逻辑查询计划优化就是一个利用基于关系代数的等价变换,将高成本的操作替换为低成本操作的过程。

可以看一下执行时间的对比,差距还是挺明显的:

spark dataframe groupby agg 方法 spark dataframe dataset_spark_03

说明:

reduceByKey:可以将数据按照相同的 Key 对 Value 进行聚合。例如:可以进行 WordCount。

// 函数签名
def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

// 举例
val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))
val dataRDD2 = dataRDD1.reduceByKey(_+_)
val dataRDD3 = dataRDD1.reduceByKey(_+_, 2)

groupbyKey:将数据源的数据根据 key 对 value 进行分组。例如:可以进行 WordCount。

// 函数签名
def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

// 举例
val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3)))
val dataRDD2 = dataRDD1.groupByKey()
val dataRDD3 = dataRDD1.groupByKey(2)
val dataRDD4 = dataRDD1.groupByKey(new HashPartitioner(2))

reduceByKey 和 groupByKey 的区别:

  • 从 shuffle 的角度:reduceByKey 和 groupByKey 都存在 shuffle 的操作,但是 reduceByKey 可以在 shuffle 前对分区内相同 key 的数据进行预聚合(combine)功能,这样会减少落盘的数据量,而 groupByKey 只是进行分组,不存在数据量减少的问题,reduceByKey 性能比较高。
  • 从功能的角度:reduceByKey 其实包含分组和聚合的功能。groupByKey 只能分组,不能聚合,所以在分组聚合的场合下,推荐使用 reduceByKey,如果仅仅是分组而不需要聚合。那么还是只能使用 groupByKey。
2.Dataset

Dataset 是分布式数据集合。Dataset 是 Spark 1.6 中添加的一个新抽象。特点:

  • 是 DataFrame API 的一个扩展,是SparkSQL最新的数据抽象。
  • 拥有 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点,即具有类型安全检查和 DataFrame 的查询优化特性;
  • Dataset 可以使用功能性的转换(操作map,flatMap,filter等等)。
  • 用样例类来对 Dataset 中定义数据的结构信息,样例类中每个属性的名称直接映射到 Dataset 中的字段名称。
  • Dataset是强类型的,比如可以有Dataset[Car],Dataset[Person]。
  • DataFrame 是 Dataset 的特列,DataFrame = Dataset[Row] ,所以可以通过 as 方法将 DataFrame 转换为 Dataset。Row 是一个类型,跟 Car、Person 这些的类型一样,所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序。
3.总结

DataFrame 从 API 上借鉴了 R 和 Python 语言中 Pandas 的 DataFrame 的概念。DataFrame 和 Dataset 都属于 Spark SQL 模块,每个操作都可以被看作是一条完整 SQL 语句的”零碎“逻辑。后面将开始学习 Spark SQL。