学习致谢 [
HiveOnSpark和SparkOnHive
·HiveOnSpark: SparkSql诞生之前的Shark项目使用的,是把Hive的执行引擎换成Spark,剩下的使用Hive的,严重依赖Hive,早就淘汰了没有人用了
·SparkOnHive: SparkSQL诞生之后,Spark提出的,是仅仅使用Hive的元数据(库/表/字段/位置等信息…),剩下的用SparkSQL的,如:执行引擎,语法解析,物理执行计划,SQL优化
·本质
0.注意:spark3.0.1整合hive要求hive版本>2.3.71.
注意:需要先启动Hive的metastore
SparkSQL集成Hive本质就是:SparkSQL读取Hive的元数据MetaStore·操作
1、启动Hive的元数据库服务hive所在机器node2上启动
注意:Spark3.0需要Hive2.3.7版本
2、告诉SparkSQL:Hive的元数据库在哪里
哪一台机器需要使用spark-sql命令行整合hive就把下面的配置放在哪一台
也可以将hive-site.xml分发到集群中所有Spark的conf目录,此时任意机器启动应用都可以访问Hive表数据。
具体操作说明
1.到hive目录下找到hive-site.xml文件
复制到spark/conf/目录下
然后返回bin目录,看到spark-sql
保险起见,将jdbc的jar包提前放在jar/目录下
通过命令./spark-sql
操作hive
2.hive端和spark端的对比
(1)在hive端查看数据库
(2)在hive端查看表,并查询person中的所有内容
(3)然后在spark端继续查看,可以看到和hive中一模一样,spark操作的就是hive的元数据
3、使用sparksql操作hive
(1)在spark端创建一个新的表person3
(2)在hive端查看,看到已经同步
(3)在spark导入数据
(4)在hive中查看