Spark综合学习笔记（二十四）SparkSQL实战6-多数据源支持

原创

wx59658a994b151 2022-11-02 15:12:15 博主文章分类：大数据 ©著作权

文章标签 spark big data scala json sql 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者wx59658a994b151的原创作品，请联系作者获取转载授权，否则将追究法律责任

学习致谢

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=61

小节：

读：spark.read.格式（路径）//底层spark.read.format(“格式”).load(路径)
写：df.write…格式（路径） //df.write.format(“格式”).save(路径)

Spark综合学习笔记（二十四）SparkSQL实战6-多数据源支持_sql

Spark综合学习笔记（二十四）SparkSQL实战6-多数据源支持_big data_02

代码实现

package sql

import java.util.Properties

import org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}

/**
  * Author itcast
  * Desc 演示使用spark-SQL-支持的外部数据源
  * 支持的文件格式：text/json/csv/parquet/orc...
  * 支持文件系统/数据库
  */
object Demo06_DataSource{
  def main(args: Array[String]): Unit = {
    //TODO 0.准备环境
    val spark = SparkSession.builder().appName("sparksql").master("local[*]").getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("WARN")
    import spark.implicits._
    //TODO 1.加载数据
      spark.read.text("data/input/text")
    val df: DataFrame = spark.read.json("data/input/json")
    df.printSchema()
    df.show()
    df//底层format("json").load(paths:_*)
      spark.read.csv("data/input/csv")
    //TODO 2.处理数据

    //TODO 3.输出数据
      df.coalesce(1).write.json("data/output/json")//底层 format("json").save(path)
      df.coalesce(1).write.csv("data/output/json")
      df.coalesce(1).write.parquet("data/output/parquet")
      df.coalesce(1).write.orc("data/output/orc")
    val prop = new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","root")
      df.coalesce(1).write.mode(SaveMode.Overwrite).jdbc("jdbc:mysql://localhost:3306/bigdata?characteEncoding=UTF-8","person",prop)
    //TODO 4.关闭资源
      spark.close()
  }
}