spark dataframe 怎么取出一个字段进行判断

转载

编程艺术之光 2024-11-04 21:08:14

文章标签 json sql hive hadoop spark 文章分类 Spark 大数据

文章目录

1.DataFrame
2.DataSet
3.RDD、DataFrame、DataSet 三者的关系
4. 使用SQL操作DataFrame类型的数据

4.1 DSL语法
4.2 RDD转换为DataFrame
4.3 DataFrame转换为RDD

5.使用SQL操作DataSet的数据

5.1 使用样例类序列创建 DataSet
5.2 DataSet转换为RDD
5.3 DataSet和DataFrame相互转换

1.DataFrame

在Spark中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中的 二维表格 。DataFrame 与 RDD 的主要区别在于，RDD只关心数据，而DataFrame中也包含数据描述信息(数据的元数据)。如RDD中的一行数据为：16 小王，而这行数据在DataFrame中为age:16,name:小王。

spark dataframe 怎么取出一个字段进行判断_sql

Spark SQL 的 DataFrame API 允许我们使用 DataFrame 而不用必须去注册临时表或者生成 SQL 表达式。 DataFrame API 既有 transformation 操作也有 action 操作。

2.DataSet

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象，是 DataFrame的一个扩展。它提供了 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 SparkSQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter等等）。

DataSet与DataFrame的区别在于，DataSet在DataFrame的基础上，进一步的指明了每个数据的数据类型。
DataFrame 其实就是 DataSet 的一个特例 ,因为DataFrame中每行的类型都是Row

type DataFrame = Dataset[Row]

3.RDD、DataFrame、DataSet 三者的关系

1.RDD、DataFrame、DataSet 全都是 spark 平台下的分布式弹性数据集
2.三者都有惰性机制，在进行创建、转换，如 map 方法时，不会立即执行，只有在遇到Action 如 foreach 时，三者才会开始遍历运算
3.三者有许多共同的函数，如 filter，排序等
4.在对 DataFrame 和 Dataset 进行操作许多操作都需要这个包:import spark.implicits._
5.三者都会根据 Spark 的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
6.三者都有 partition 的概念
7.DataFrame 和 DataSet 均可使用模式匹配获取各个字段的值和类型

RDD、DataFrame、DataSet之间可以相互转化

spark dataframe 怎么取出一个字段进行判断_hive_02

4. 使用SQL操作DataFrame类型的数据

定义一个名为user的json文件，文件中的数据如下。

spark dataframe 怎么取出一个字段进行判断_hadoop_03

创建DataFrame的数据

object SparkSQLDemo01 {
  def main(args: Array[String]): Unit = {
    //创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLDemo01")

    //创建 SparkSession 对象
    val sc: SparkSession = SparkSession.builder().config(conf).getOrCreate()

    //RDD，DataFrame，DataSet三者在进行转换的时候需要引入隐式转换规则，否则无法转换
    import sc.implicits._

    val df = sc.read.json("D:\\learnSoftWare\\IdeaProject\\Spark_Demo\\Spark_Core\\src\\main\\com.mao\\datas\\user.json")
    df.show()

    sc.stop()
  }

}

spark dataframe 怎么取出一个字段进行判断_json_04

对 DataFrame 创建一个临时视图

使用SQL来对DataFrame数据进行操作的时候，需要有一个临时视图和全局视图来辅助。

//创建临时视图
    df.createOrReplaceTempView("user")
    val allSelect = sc.sql("select * from user")
    allSelect.show()

对 DataFrame 创建一个全局视图

df.createGlobalTempView("user")

4.1 DSL语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。可以在 Scala, Java, Python 和 R 中使用 DSL，使用 DSL 语法风格不必去创建临时视图了

//创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLDemo02")

    //创建 SparkSession 对象
    val sc: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    import sc.implicits._

    //RDD，DataFrame，DataSet三者在进行转换的时候需要引入隐式转换规则，否则无法转换

    val df = sc.read.json("D:\\learnSoftWare\\IdeaProject\\Spark_Demo\\Spark_Core\\src\\main\\com.mao\\datas\\user.json")
    df.show()

    //DSL语法
    df.printSchema()
    //只查看username列
    df.select("username").show()

    sc.stop()

spark dataframe 怎么取出一个字段进行判断_hadoop_05

在DSL语法中，可以使用$和‘来对字段中的值进行操作

//对所有user的年龄执行+1操作
    df.select($"username",$"age" + 1).show
    df.select('username, 'age + 1).show()

spark dataframe 怎么取出一个字段进行判断_json_06

//查看"age"大于"30"的数据
    df.filter('age>20).show()

spark dataframe 怎么取出一个字段进行判断_sql_07

//按照age进行分组，查看数据条数
    df.groupBy('age).count().show()

spark dataframe 怎么取出一个字段进行判断_spark_08

4.2 RDD转换为DataFrame

//创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLDemo03")

    //创建 SparkSession 对象
    val sc: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    import sc.implicits._

    //RDD，DataFrame，DataSet三者在进行转换的时候需要引入隐式转换规则，否则无法转换
    val rdd1=sc.sparkContext.makeRDD(List(1,2,3,4))
    val rdd2: RDD[(Int, String, Int)] = sc.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 28), (3, "wangwu", 20)))

    //将RDD转换为DataFrame
    val df1 = rdd1.toDF()
    val df2 = rdd2.toDF()

    df1.show()
    df2.show()

    sc.stop()

spark dataframe 怎么取出一个字段进行判断_hadoop_09

spark dataframe 怎么取出一个字段进行判断_json_10

4.3 DataFrame转换为RDD

DataFrame 其实就是对 RDD 的封装，所以可以直接获取内部的 RDD

//DataFrame转RDD
    val newrdd1: RDD[Row] = df1.rdd
    val newrdd2: RDD[Row] = df2.rdd
    newrdd1.collect().foreach(println)
    newrdd2.collect().foreach(println)

spark dataframe 怎么取出一个字段进行判断_spark_11

5.使用SQL操作DataSet的数据

5.1 使用样例类序列创建 DataSet

SparkSQL 能够自动将包含有 case 类的 RDD 转换成 DataSet，case 类定义了 table 的结构，case 类属性通过反射变成了表的列名。Case 类可以包含诸如 Seq 或者 Array 等复杂的结构。

//创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLDemo03")

    //创建 SparkSession 对象
    val sc: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    import sc.implicits._

    val caseUserRDD: RDD[User] = sc.sparkContext.makeRDD(List(User("zhangsan", 19), User("lisi", 21)))
    val DSUser = caseUserRDD.toDS()
    DSUser.show()

    sc.stop()

spark dataframe 怎么取出一个字段进行判断_sql_12

5.2 DataSet转换为RDD

DataSet 其实也是对 RDD 的封装，所以可以直接获取内部的 RDD

val dsRdd: RDD[User] = DSUser.rdd
    dsRdd.collect().foreach(println)

spark dataframe 怎么取出一个字段进行判断_hive_13

5.3 DataSet和DataFrame相互转换

DataFrame 其实是 DataSet 的特例，所以它们之间是可以互相转换的。

//创建上下文环境配置对象
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLDemo03")

    //创建 SparkSession 对象
    val sc: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    import sc.implicits._

    val userRDD: RDD[(String, Int)] = sc.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 21), ("wangwu", 22)))
    //将RDD转换为DataFrame
    val userDF = userRDD.toDF("name,age")
    //将DataFrame转换为DataSet,使用as[样例类]
    val userDS: Dataset[User] = userDF.as[User]
    userDS.show()

    //将DataSet转换为DataFrame
    val newUserDF: DataFrame = userDS.toDF()
    newUserDF.show()

    sc.stop()

spark dataframe 怎么取出一个字段进行判断_sql_14

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Typescript实现带小数的计算器

下一篇：DDD的java包的设计

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯