大数据Spark SQL快速入门

原创

程序员老陆 2021-08-25 23:21:37 博主文章分类：spark ©著作权

文章标签 spark sql big data 数据 hive 文章分类 运维

©著作权归作者所有：来自51CTO博客作者程序员老陆的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 SparkSession 应用入口

Spark 2.0开始，应用程序入口为SparkSession，加载不同数据源的数据，封装到DataFrame/Dataset集合数据结构中，使得编程更加简单，程序运行更加快速高效。

个人总结:从RDD就相当于一个集合列表,然后到DS,DF就有了表的概念,然后有SQL对表进行操作.

大数据Spark SQL快速入门_spark

SparkSession：这是一个新入口，取代了原本的SQLContextAPI的用户来说，Spark常见的混乱源头来自于使用哪个“context”。现在使SparkSession，它作为

单个入口可以兼容两者，注意原本的SQLContext与HiveContext仍然保留，以支持向下兼容。

文档：http://spark.apache.org/docs/2.4.5/sql-getting-started.html#starting-point-sparksession

1）、SparkSession在SparkSQL模块中，添加MAVEN依赖与HiveContext。对于DataFrame

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.4.5</version>
</dependency>

2）、SparkSession对象实例通过建造者模式构建，代码如下：
大数据Spark SQL快速入门_数据_02
其中
①表示导入SparkSession所在的包，
②表示建造者模式构建对象和设置属性，
③表示导入SparkSession类中implicits对象object中隐式转换函数。

3）、范例演示：构建SparkSession实例，加载文本数据，统计条目数。

import org.apache.spark.sql.{Dataset, SparkSession}
/**
 * Spark 2.x开始，提供了SparkSession类，作为Spark Application程序入口，
 * 用于读取数据和调度Job，底层依然为SparkContext
 */
object SparkStartPoint {
  def main(args: Array[String]): Unit = {
    // TODO: 构建SparkSession实例对象，读取数据
    val spark = SparkSession.builder()
      // 设置应用名称和运行模式
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[2]")
      // 通过装饰模式获取实例对象，此种方式为线程安全的
      .getOrCreate()
// For implicit conversions like converting RDDs to DataFrames 用于隐式转换，如将RDD转换为DataFrame
    import spark.implicits._
    // TODO: 2. 从文件系统读取数据，包含本地文件系统或HDFS文件系统
    val inputDS: Dataset[String] = spark.read.textFile("datas/wordcount/wordcount.data")
    println(s"Count = ${inputDS.count()}")
    inputDS.show(10)
    // TODO: 3. 应用运行结束，关闭资源
    spark.stop()
  }
}

使用SparkSession加载数据源数据，将其封装到DataFrame或Dataset中，直接使用show函数就可以显示样本数据（默认显示前20条）。

Spark2.0使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并且支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。SparkSession亦提供了HiveQL以及其他依赖于Hive的功能的支持。

2 词频统计WordCount

前面使用RDD封装数据，实现词频统计WordCount功能，从Spark 1.0开始，一直到Spark 2.0，建立在RDD之上的一种新的数据结构DataFrame/Dataset发展而来，更好的实现数据处理分析。DataFrame 数据结构相当于给RDD加上约束Schema，知道数据内部结构（字段名称、字段类型），提供两种方式分析处理数据：DataFrame API（DSL编程）和SQL（类似HiveQL编程），下面以WordCount程序为例编程实现，体验DataFrame使用。

2.1 基于DSL编程

使用SparkSession加载文本数据，封装到Dataset/DataFrame中，调用API函数处理分析数据（类似RDD中API函数，如flatMap、map、filter等），编程步骤：

第一步、构建SparkSession实例对象，设置应用名称和运行本地模式；
第二步、读取HDFS上文本文件数据；
第三步、使用DSL（Dataset API），类似RDD API处理分析数据；
第四步、控制台打印结果数据和关闭SparkSession；
具体演示代码如下：

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
/**
 * 使用SparkSQL进行词频统计WordCount：SQL、DSL
 */
object SparkDSLWordCount {
  def main(args: Array[String]): Unit = {
    // TODO: 1、构建SparkSession实例对象，通过建造者模式创建
    val spark: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[3]")
      .getOrCreate()
    import spark.implicits._
    // TODO: 2、读取HDFS上文本文件数据
    val inputDS: Dataset[String] = spark.read.textFile("datas/wordcount/wordcount.data")
    // TODO: 3、使用DSL（Dataset API），类似RDD API
    val resultDF: DataFrame = inputDS
      // 过滤不合格的数据
      .filter(line => null != line && line.trim.length > 0)
      // 将每行数据进行分割
      .flatMap(line => line.split("\\s+"))
      // 按照单词分组统计：SELECT word, count(1) FROM tb_words GROUP BY word
      .groupBy("value")
      // 使用count函数，获取值类型Long类型 -> 数据库中就是BigInt类型
      .count()
    resultDF.show(10)
    // TODO: 关闭资源
    spark.stop()
  }
}

运行程序结果如下：

大数据Spark SQL快速入门_数据_03

2.2 基于SQL编程

也可以实现类似HiveQL方式进行词频统计，直接对单词分组group by，再进行count即可，步

骤如下：

第一步、构建SparkSession对象，加载文件数据，分割每行数据为单词；
第二步、将DataFrame/Dataset注册为临时视图（Spark 1.x中为临时表）；
第三步、编写SQL语句，使用SparkSession执行获取结果；
第四步、控制台打印结果数据和关闭SparkSession；
具体演示代码如下：

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
object SparkSQLWordCount {
  def main(args: Array[String]): Unit = {
    // TODO: 1、构建SparkSession实例对象，通过建造者模式创建
    val spark: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[3]")
      .getOrCreate()
    import spark.implicits._
    // TODO: 2、读取HDFS上文本文件数据
    val inputDS: Dataset[String] = spark.read.textFile("datas/wordcount/wordcount.data")
    // TODO: 3、使用DSL（Dataset API），类似RDD API
    val wordsDS: Dataset[String] = inputDS
      // 过滤不合格的数据
      .filter(line => null != line && line.trim.length > 0)
      // 将每行数据分割单词
      .flatMap(line => line.trim.split("\\s+"))
    wordsDS.printSchema()
    wordsDS.show(20)
    // select value, count(1) as cnt from tb_words
    // TODO: 第一步，将Dataset注册为临时视图
    wordsDS.createOrReplaceTempView("view_tmp_words")
    // TODO: 第二步，编写SQL执行分析
    val resultDF: DataFrame = spark.sql(
      """
        |SELECT value, COUNT(1) AS cnt FROM view_tmp_words GROUP BY value ORDER BY cnt DESC
""".stripMargin)
    /*
    +---------+---+
    | value|cnt|
    +---------+---+
    | spark| 11|
    | hive| 6|
    |mapreduce| 4|
    | hadoop| 3|
    | sql| 2|
    | hdfs| 2|
    +---------+---+
    */
    resultDF.show(10)
    // TODO: 关闭资源
    spark.stop()
  }
}

运行程序结果如下：

大数据Spark SQL快速入门_hive_04

无论使用DSL还是SQL编程方式，底层转换为RDD操作都是一样，性能一致，查看WEB UI监控中Job 大数据Spark SQL快速入门_sql_05

从上述的案例可以发现将数据封装到Dataset/DataFrame中，进行处理分析，更加方便简洁，

这就是Spark框架中针对结构化数据处理模：Spark SQL模块。

官方文档：http://spark.apache.org/sql/

3 数据处理分析

在SparkSQL模块中，将结构化数据封装到DataFrame或Dataset集合中后，提供两种方式分析

处理数据，正如前面案例【词频统计WordCount】两种方式：

第一种：DSL（domain-specific language）编程，调用DataFrame/Dataset API（函数），类似
RDD中函数；
第二种：SQL 编程，将DataFrame/Dataset注册为临时视图或表，编写SQL语句，类似HiveQL；
两种方式底层转换为RDD操作，包括性能优化完全一致，在实际项目中语句不通的习惯及业务灵活选择。比如机器学习相关特征数据处理，习惯使用DSL编程；比如数据仓库中数据ETL和报表分析，习惯使用SQL编程。无论哪种方式，都是相通的，必须灵活使用掌握。

3.1 基于DSL分析

调用DataFrame/Dataset中API（函数）分析数据，其中函数包含RDD中转换函数和类似SQL

语句函数，部分截图如下：

大数据Spark SQL快速入门_spark_06

类似SQL语法函数：调用Dataset中API进行数据分析，Dataset中涵盖很多函数，大致分类如下：

1、选择函数select：选取某些列的值
大数据Spark SQL快速入门_spark_07

2、过滤函数filter/where：设置过滤条件，类似SQL中WHERE语句大数据Spark SQL快速入门_数据_08

3、分组函数groupBy/rollup/cube：对某些字段分组，在进行聚合统计
大数据Spark SQL快速入门_hive_09

4、聚合函数agg：通常与分组函数连用，使用一些count、max、sum等聚合函数操作
大数据Spark SQL快速入门_spark_10

5、排序函数sort/orderBy：按照某写列的值进行排序（升序ASC或者降序DESC）
大数据Spark SQL快速入门_sql_11

6、限制函数limit：获取前几条数据，类似RDD中take函数
大数据Spark SQL快速入门_hive_12

7、重命名函数withColumnRenamed：将某列的名称重新命名
大数据Spark SQL快速入门_spark_13

8、删除函数drop：删除某些列
大数据Spark SQL快速入门_hive_14

9、增加列函数withColumn：当某列存在时替换值，不存在时添加此列
大数据Spark SQL快速入门_big data_15
上述函数在实际项目中经常使用，尤其数据分析处理的时候，其中要注意，调用函数时，通常
指定某个列名称，传递Column对象，通过隐式转换转换字符串String类型为Column对象。
大数据Spark SQL快速入门_spark_16
Dataset/DataFrame中转换函数，类似RDD中Transformation函数，使用差不多：
大数据Spark SQL快速入门_sql_17