SparkSQL简介什么是SparkSQL:spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。SparkSQL的作用:提供一个编程抽象(DataFrame) 并且作为分布式 SQL查询引擎DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD...
原创 2021-06-10 18:17:05
196阅读
官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.html val sc: SparkContext // An existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.read.jso
转载 2019-06-12 19:45:00
174阅读
2评论
SparkSQL 发展过程 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用 HQL, 此外, 还
原创 2021-07-20 09:33:22
185阅读
聚合 使用 functions 函数进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm) as
原创 2021-07-20 09:33:17
108阅读
Dataset (DataFrame) 的基础操作 有类型操作 分类算子解释 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world", "h
原创 2021-07-20 09:33:18
220阅读
数据读写 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或者读取 CS
原创 2021-07-20 09:33:20
158阅读
1.   安装mysql 2.   上传、解压、重命名 2.1.  上传 在随便一台有hadoop环境的机器上上传安装文件 su - hadoop rz –y 2.2.  解压 解压缩:apache-hive-1.0.1-bin.tar.gz tar -zxvf apache-hive-1.0.1-bin.tar.gz 2.3.  重命名 mv apache-hive-1.0.1-bin hive
转载 2019-06-13 14:05:00
96阅读
2评论
1上传jar 2 加载驱动包 [root@mini1 bin]#  ./spark-shell --master spark://mini1:7077 --jars mysql-connector-java-5.1.32.jar --driver-class-path mysql-connector-java-5.1.32.jar    create table dept( dep
转载 2019-06-13 00:04:00
140阅读
2评论
SparkSQL简介 SparkSQL 的出现契机 SparkSQL 解决的问题 Spark S
原创 2022-09-23 18:17:39
108阅读
一. spark-sql 1.in 不支持子查询 eg. select * from src where key in(select key from test); 支持查询个数 eg. select * from src where key in(1,2,3,4,5); in 40000个 耗时25.766秒 in 80000个 耗时78.827秒 2.union all/union 不支持顶层
转载 2023-09-15 16:03:13
895阅读
前言Apache Spark在6月份分布了3.0.0版本,增加了许多性能优化方面的新特性。作为大数据分析的重要引擎,在SQL查询优化方面的新特性值得期待和使用。Spark在SQL查询方面的性能优化主要分为四个方向七个方面:开发交互方向新的Explain格式所有join支持hints动态优化自适应查询执行动态分区裁剪Catalyst提升增强嵌套列的裁剪和下推增强聚合的代码生成基础设施更新支持新的Sc
本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与
转载 2017-05-07 21:40:00
61阅读
文章目录第1章 Spark SQL概述1.1 什么是Spark SQL1.2 Spark SQL的特点1.2.1 易整合1.2.2 统一的数据访问方式1.2.3 兼容Hive1.2.4 标准的数据连接1.3 什么是DataFrame1.4 什么是DataSet第2章 Spark SQL编程2.1 SparkSession新的起始点2.2 DataFrame2.2.1 创建DataFrame2.2
转载 2023-09-18 21:50:25
125阅读
目录一、概述二、Spark-SQL脚本 正文 回到顶部一、概述SparkSQL 的元数据的状态有两种:1、in_memory,用完了元数据也就丢了2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。   换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓库的时候,必须依赖于Hive
转载 2023-05-30 11:16:59
210阅读
1、概念  Spark SQL是一个用来处理结构化数据的Spark组件。  优点:      ①SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行       ②SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据)       ③SparkSQL支持两种编程API 1.SQL方式
转载 2023-05-29 10:12:48
239阅读
Spark SQL学习笔记Spark SQL学习笔记设计到很多代码操作,所以就放在github, https://github.com/yangtong123/RoadOfStudySpark/blob/master/src/com/spark/sql/Readme.md其中包括了对Spark2.0的新特性的介绍,包括SparkSession, DataSet等
转载 2023-06-05 10:45:47
170阅读
概述 SparkSql将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表。 创建DataFrame对象DataFrame就相当于数据库的一张表。它是个只读的表,不能在运算过程再往里加元素。 RDD.toDF("列名") scala> val rdd = sc.parallelize(List(1,2,3,4,5,6)) rdd: org.apache.sp
转载 2023-08-29 17:06:09
91阅读
Spark SQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL的特点: 1、和Spark Core的无缝集成,可以在写整个RDD应用的时候,配置Spark SQL来完成逻辑实现。 2、统一的数据访问方式,Spark SQL提供标准化的SQL查询。 3、Hive的继承,
转载 2023-09-19 06:37:19
113阅读
文章目录前言一、SparkSession1、SparkSession介绍2、SparkSession构建3、sql与dsl实现词频统计4、spark开发形式发展二、DataFrame1、dataframe概述2、dataframe编程3、dataframe函数4、Catalyst 优化器5、spark读写外部数据源1、从本地文件系统加载JSON格式数据,保存为Parquet格式:2、加载文本数据
转载 2023-09-04 12:08:40
260阅读
介绍用户一方面需要关系型操作,另一方面需要过程式的操作,shark只能进行关系型操作。Spark SQL可以将两者结合起来。Spark SQL由两个重要组成部分 DataFrame API 将关系型的处理与过程型处理结合起来,可以对外部数据源和Spark内建的分布式集合进行关系型操作压缩的列式存储,而不是Java/Scala对象Catalyst 提供了一整套性能分析、计划、运行时代码生成等的框架非
转载 2024-06-04 08:13:31
160阅读
  • 1
  • 2
  • 3
  • 4
  • 5