Spark里面的RDD结果如何转为键值对 spark rdd sql

关注误会一场

文章目录

1. 首先什么是SparkSQL?
2. SparkSQL的几大特性:
3. SparkSQL的概述
4. SparkSQL与HiveSQL的关系

Spark里面的RDD结果如何转为键值对 spark rdd sql

转载

误会一场 2023-06-19 05:37:00

文章标签 SQL Hive 泛型 文章分类 Spark 大数据

1. 首先什么是SparkSQL?

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。
有多种方式去使用Spark SQL，包括SQL、DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎
它是将Spark SQL转换成RDD，然后提交到集群中去运行，执行效率非常快！

2. SparkSQL的几大特性:

易整合: 将sql查询与spark程序无缝混合，可以使用java、scala、python、R等语言的API操作。
统一的数据访问: 以相同的方式连接到任何数据源。
兼容Hive: 支持Hive HQL的语法，兼容hive(元数据库、SQL语法、UDF、序列化、反序列化机制)。
标准的数据连接: 可以使用行业标准的JDBC或ODBC连接。

Spark里面的RDD结果如何转为键值对 spark rdd sql_SQL

SparkSQL模块官方文档

3. SparkSQL的概述

简介:Spark SQL允许开发人员直接处理RDD，同时可以查询在Hive上存储的外部数据。Spark SQL的一个重要特点就是能够统一处理关系表和RDD，使得开发人员可以轻松的使用SQL命令进行外部查询，同时进行更加复杂的数据分析。

发展历程:

Spark里面的RDD结果如何转为键值对 spark rdd sql_SQL_02

关系:

Spark里面的RDD结果如何转为键值对 spark rdd sql_SQL_03

SparkSQL发展:

1-Hive(慢-底层基于MapReduce-Tez-Spark)
2-Shark(底层执行引擎Spark，大量冗余的Hive代码)
3-SparkSQL(重新设计了SQL的执行流程，200种优化)
Spark3.0中有大量SQL的改变

3.1 DataFrame

Spark里面的RDD结果如何转为键值对 spark rdd sql_SQL_04

总结:
DataFrame ==> RDD - 泛型 + Schema + 方便的SQL操作 + 优化
DataFrame是特殊的RDD
DataFrame是一个分布式的表

3.2 DataSet

Spark里面的RDD结果如何转为键值对 spark rdd sql_Hive_05

Spark里面的RDD结果如何转为键值对 spark rdd sql_泛型_06

● 总结:
Dateset ==> DataFrame + 泛型
Dateset ==> RDD + Schema + 方便的SQL操作 + 优化
Dateset是特殊的DataFrame、DataFrame是特殊的RDD
Dateset是一个分布式的表

3.3 RDD、DataFrame、DataSet的区别

三者结构图解

Spark里面的RDD结果如何转为键值对 spark rdd sql_Hive_07

数据图解

总结:

DataFrame = RDD - 泛型 + Schema + SQL + 优化
DataSet = DataFrame + 泛型
DataSet = RDD + Schema + SQL + 优化
DataFrame = DataSet[Row]

4. SparkSQL与HiveSQL的关系

Hive(SQL on Hadoop)是大数据生态系统中第一个SQL框架，架构如下所示：

Spark里面的RDD结果如何转为键值对 spark rdd sql_Hive_08

底层依赖的MapReduce 所以计算起来很慢
Shark(Hive on Spark),把HQL翻译成Spark上对应的RDD操作,Shark继承了大量的Hive代码

Spark里面的RDD结果如何转为键值对 spark rdd sql_SQL_09

基于前面的问题诞生了SparkSQL(新的技术都是基于就得技术有问题才诞生的)

Spark里面的RDD结果如何转为键值对 spark rdd sql_泛型_10

Spark里面的RDD结果如何转为键值对 spark rdd sql_泛型_11

数据结构: DataFrame和DataSet

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：Spring boot 搭建Android服务端 springboot开发安卓

下一篇：Spark矢量化 spark 向量化执行

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册