后台登录hive后执行批量SQL hive -f 执行sql脚本

转载

mob64ca13fb6939 2024-07-23 18:03:52

文章标签 后台登录hive后执行批量SQL spark sql hive 文章分类 Hive 大数据

spark sql整合hive

在spark sql中使用hive的元数据
spark sql是使用spark进行计算的，hive使用MR进行计算的

1、在hive的hive-site.xml修改一行配置，增加了这一行配置之后，以后在使用hive之前都需要先启动元数据服务

cd /usr/local/soft/hive-1.2.1/conf/

<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
</property>

后台登录hive后执行批量SQL hive -f 执行sql脚本_后台登录hive后执行批量SQL

2、启动hive元数据服务, 将hvie的元数据暴露给第三方使用

nohup  hive --service metastore >> metastore.log 2>&1 &

3、将hive-site.xml 复制到spark conf目录下

cp hive-site.xml /usr/local/soft/spark-2.4.5/conf/

4、将mysql 驱动包复制到spark jars目录下

cd /usr/local/soft/hive-1.2.1/jars
cp mysql-connector-java-5.1.49.jar /usr/local/soft/spark-2.4.5/jars/

5、整合好之后在spark-sql 里面就可以使用hive的表了

# 模式是local模式
spark-sql -conf  spark.sql.shuffle.partitions=2
# 使用yarn-client模式
spark-sql --master yarn-client  --conf  spark.sql.shuffle.partitions=2

#在spark-sql中设置运行参数
set spark.sql.shuffle.partitions=2;

后台登录hive后执行批量SQL hive -f 执行sql脚本_后台登录hive后执行批量SQL_02

在spark-sql中创建一个sparkdb数据库在hive中也可以看见，证明二者使用同一个数据库

后台登录hive后执行批量SQL hive -f 执行sql脚本_sql_03

后台登录hive后执行批量SQL hive -f 执行sql脚本_后台登录hive后执行批量SQL_04

现在如果不启动hive的元数据服务，就会报一个错误，如下：

后台登录hive后执行批量SQL hive -f 执行sql脚本_spark_05

spark-sql -e

-- 执行一条sql语句，执行完，自动退出
spark-sql -e "select * from sparkdb.student"

后台登录hive后执行批量SQL hive -f 执行sql脚本_sql_06

spark-sql -f

vim a.sql
select clazz,count(clazz) from spark.student group by clazz
-- 执行一个sql文件
spark-sql -f text.sql

后台登录hive后执行批量SQL hive -f 执行sql脚本_hive_07

当spark-sql 和hive整合好之后再代码中也可以直接使用hive的表

val spark: SparkSession = SparkSession
.builder()
.appName("onhive")
.enableHiveSupport() //开启hive的元数据支持，在代码中读取hive的元数据
.getOrCreate()

//读取hie的表
val studentDF = spark.talbe("studnet")

//写好的代码不能再本地运行， 需要打包上传到集群运行

spark sql和hvie的建表语句一样

create external table student
(
id  string,
name string,
age int,
gender string,
clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS textfile
location '/spark/data/students/';

create table score
(
student_id  string,
cource_id string,
sco int
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS textfile
location '/spark/data/scores/';

禁用集群spark日志

cd /usr/local/soft/spark-2.4.5/conf
mv log4j.properties.template log4j.properties
vim log4j.properties
修改配置
log4j.rootCategory=ERROR, console

spark sql和hive区别

1、spark sql缓存

-- 进入spark sql命令行
spark-sql
-- 可以通过一个网址访问spark任务
http://master:4040
-- 设置并行度
set spark.sql.shuffle.partitions=1;

-- 再spark-sql中对同一个表进行多次查询的时候可以将表缓存起来
cache table student;
-- 删除缓存
uncache table student;

-- 再代码中也可以缓存DF
 studentDF.persist(StorageLevel.MEMORY_ONLY)

后台登录hive后执行批量SQL hive -f 执行sql脚本_hive_08

网页变化如下：

以前：

后台登录hive后执行批量SQL hive -f 执行sql脚本_后台登录hive后执行批量SQL_09

现在：

后台登录hive后执行批量SQL hive -f 执行sql脚本_spark_10

2、spark sql mapjoin --- 广播变量

Reduce Join

select * from 
student as a
join 
score as b
on
a.id=b.student_id

后台登录hive后执行批量SQL hive -f 执行sql脚本_sql_11

MapJoin

当一个大表关联小表的时候可以将小表加载到内存中进行关联---- 广播变量
在map端进行表关联，不会产生shuffle

select /*+broadcast(a)  */ * from 
student as a
join 
score as b
on
a.id=b.student_id

/*+broadcast(a) */ HINT:给sql加提示的语法

后台登录hive后执行批量SQL hive -f 执行sql脚本_sql_12

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：如何将ESXI虚拟机外网 esxi虚拟机ping外网

下一篇：nodeport的服务端口会在master节点暴露吗 node tcp服务器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯