Hadoop3.3.2中hive安装及使用metastore管理元数据、hiveserver2的使用
- hive的安装
- hive介绍:
- hive安装
- 搭建metastore元数据管理从服务器
- 搭建metastore元数据管理主服务器
- 可能会遇到的bug
hive的安装
hive介绍:
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
hive官网下载地址 在这里我用的版本是 apache-hive-3.1.3-bin.tar.gz
百度网盘地址 提取码:0326
首先咱们得要有两台及以上的服务器因为metastore相当于hive与MySQL关系型数据之间的插件并且提供远程的rpc服务、它能够有效的与MySQL解耦合,如果我们不用metastore的话、MySQL的链接是在hive的配置文件中配置的、如果MySQL挂了、或者数据库切换了、用户名密码被修改了,那咱们需要修改hive配置并且重启hive、这样显然是不允许的
hive安装
- 解压已下载的hive安装包到 (/opt/bigdata)可以是任意目录
mkdir /opt/bigdata
tar -zxvf apache-hive-3.1.3-bin.tar.gz
mv apache-hive-3.1.3-bin /opt/bigdata
- 配置环境变量 /etc/profile
vim /etc/profile
#然后在最下面添加export /opt/bigdata/hive-3.1.3是你hive解压后的地址
export HIVE_HOME=/opt/bigdata/hive-3.1.3
#然后在export PATH中添加引用在最后面添加
:$HIVE_HOME/bin
搭建metastore元数据管理从服务器
- 修改hive的配置文件在 cd ${HIVE_HOME}/conf/ 下、注意:并不是将hive-default.xml.template去掉template、而是新建一个文件名称为:hive-site.xml 如果我们需要修改数据库配置的话只需要在这台hive中修改配置文件就行、就不需要重启hive服务
在hive-site.xml中添加参数
<configuration>
<property>
# hive metastore的文件夹位置
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive_remote/warehouse</value>
</property>
<property>
# hive mysql的连接地址(因为是在mysql中保存元数据的)
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://master:3306/hive_remote?createDatabaseIfNotExist=true</value>
</property>
<property>
# mysql 的驱动
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
# mysql 的用户名
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
#mysql的密码
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
```
搭建metastore元数据管理主服务器
<property>
#与主服务器配置的地址一致
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive_remote/warehouse</value>
</property>
<property>
#metastore是通过Thrift与hive通信的
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
</property>
- 然后需要将MySQL驱动放到hive的lib下、不然又可能启动hive的时候会报错说驱动找不到
MySQL驱动地址 提取码:0326
然后将驱动放入到 hive的lib目录下 /opt/bigdata/hive-3.1.3/lib - 因为要使用hiveserver2、要使用beeline进行连接hive 所以要在Hadoop中配置伪装、不然启动hive的话会提示、root用户无法伪装root
修改Hadoop中的 core-site.xml 添加以下内容 groups中value 可以改成Hadoop组名称、hosts 是IP,在这里我都设置成 * 代表所有
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
- 初始化元数据(主服务器),启动metastore(从服务器),启动hiveserver2(主服务器),启动beeline(从服务器)
#初始化元数据
schematool -dbType mysql -initSchema
# 启动 metastore、启动完成
hive --service metastore
# 启动 hiveserver2
hive --service hiveserver2
# 启动 beeline
beeline
!connect jdbc:hive2://slave1:10000/default root 123
# 也可以这样启动
beeline -u jdbc:hive2://slave1:10000/default
可能会遇到的bug
1.Error: Could not open client transport with JDBC Uri: jdbc:hive2://slave1:10000/default: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=anonymous, access=EXECUTE, inode=“/tmp”:Administrator:supergroup:drwx------
在使用 beeline时会遇到、代表当前用户没有 hdfs /tmp的权限,修改权限即可
hdfs dfs -chmod 777 /tmp