Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行

原创

wx59658a994b151 2022-11-02 15:12:01 博主文章分类：spark ©著作权

文章标签 spark big data hive sql 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者wx59658a994b151的原创作品，请联系作者获取转载授权，否则将追究法律责任

学习致谢 [

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=64](https://www.bilibili.com/video/BV1Xz4y1m7cv?p=64)

HiveOnSpark和SparkOnHive

·HiveOnSpark: SparkSql诞生之前的Shark项目使用的，是把Hive的执行引擎换成Spark,剩下的使用Hive的，严重依赖Hive，早就淘汰了没有人用了

·SparkOnHive: SparkSQL诞生之后，Spark提出的，是仅仅使用Hive的元数据(库/表/字段/位置等信息…)，剩下的用SparkSQL的，如:执行引擎,语法解析,物理执行计划,SQL优化

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_big data

·本质

0.注意:spark3.0.1整合hive要求hive版本>2.3.71.
注意:需要先启动Hive的metastore
SparkSQL集成Hive本质就是:SparkSQL读取Hive的元数据MetaStore·操作
1、启动Hive的元数据库服务hive所在机器node2上启动

nohup /export/server/hive/bin/hive --service metastore &

注意:Spark3.0需要Hive2.3.7版本
2、告诉SparkSQL:Hive的元数据库在哪里
哪一台机器需要使用spark-sql命令行整合hive就把下面的配置放在哪一台
也可以将hive-site.xml分发到集群中所有Spark的conf目录，此时任意机器启动应用都可以访问Hive表数据。

cd /export/server/spark/conf/
vim hive-site.xml

具体操作说明

1.到hive目录下找到hive-site.xml文件

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_02

复制到spark/conf/目录下

然后返回bin目录，看到spark-sql

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_sql_03

保险起见，将jdbc的jar包提前放在jar/目录下

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_sql_04

通过命令./spark-sql操作hive

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_big data_05

2.hive端和spark端的对比

(1)在hive端查看数据库

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_spark_06

(2)在hive端查看表，并查询person中的所有内容

show databases;
show tables;
select * from person;

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_07

(3)然后在spark端继续查看，可以看到和hive中一模一样，spark操作的就是hive的元数据

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_08

3、使用sparksql操作hive

（1）在spark端创建一个新的表person3

CREATE TABLE person3 (id int, name string. age int) row format delimited fields terminated by ' ';

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_09

（2）在hive端查看，看到已经同步

show tables;

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_spark_10

（3）在spark导入数据

vim /root/person.txt
1 zhangsan 20
2 lisi 29
3 wangwu 25
4 zhaoliu 30
5 tianqi 35
6 kobe 40

LOAD DATA LOCAL INPATH 'file:///root/person.txt'INTO TABLE person3;

show tables;
select * from person3;

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_11

(4)在hive中查看

Spark综合学习笔记（二十七）SparkSQL整合Hive-1 SparkSQL命令行_hive_12

上一篇：反射

下一篇：Spark综合学习笔记（二十六）SparkSQL实战8-UDF

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯