Hadoop集群搭建之Hive安装
1. 准备工作
准备好已经安装了Hadoop的集群服务器之后,需要在其中一台中安装MySQL数据库,安装可以参考CentOS7安装MySQL5.7这篇文章。
下载Hive的安装包并上传至其中一台服务器中,下载地址
2. Hive本地安装
1. 安装目录规划
统一安装路径:/opt/modules
统一软件存放路径:/opt/software
2. 上传压缩包
1. 将压缩包上传到[/opt/software]目录下,解压到[/opt/modules]目录下
2. 修改[/home/hadoop/.bash_profile]文件,增加以下内容:
HIVE_HOME=/opt/modules/hive
PATH=$HIVE_HOME/bin:$PATH
export HIVE_HOME PATH
3. 使用[source ~/.bash_profile]使其生效
3. 上传MySQL的JAR包
将mysql的jar包上传至/opt/modules/hive/lib目录下(注意和自己的mysql相匹配,如果使用mysql8,记得上传mysql8的jar包)
4. Hive配置
配置文件目录:【/opt/modules/hive/conf/】
- hive-env.sh
需要将hive-env.sh.template
复制一份为hive-env.sh
修改第48行HADOOP_HOME的路径为[/opt/modules/hadoop]
修改第51行HIVE_CONF_DIR的路径为[/opt/modules/hive/conf]
修改第54行HIVE_AUX_JARS_PATH的路径为[/opt/modules/hive/lib]
- hive-site.sh
需要将hive-default.xml.template
复制一份为hive-site.xml
,并删除其配置相关内容
<configuration>
<property>
<!-- 查询数据时 显示出列的名字 -->
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<property>
<!-- 在命令行中显示当前所使用的数据库 -->
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
<property>
<!-- 默认数据仓库存储的位置,该位置为HDFS上的路径 -->
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://hadoop01:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>xiaoer</value>
</property>
</configuration>
5. 初始化MySQL元数据库
# 使用命令初始化MySQL元数据库
[hadoop@master ~]$ schematool -dbType mysql -initSchema
6. 测试本地安装
# 直接使用hive启动,hive会主动维护一个metastore服务
[hadoop@master ~]$ hive
# 之后可以测试一个最简单的命令,如果可以显示default库,说明安装成功
hive> show databases;
3. Hive远程安装
Hive远程安装是指需要手动维护一个metastore服务或者hiveserver2服务,之后可以在任何一个客户端机器上访问该服务,连接Hive。
1. HiveServer2服务的配置
- hive-site.xml
<configuration>
<property>
<name>hive.server2.transport.mode</name>
<value>binary</value>
</property>
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
<property>
<name>hive.server2.webui.host</name>
<value>hadoop01</value>
</property>
<property>
<name>hive.server2.webui.port</name>
<value>10002</value>
</property>
</configuration>
- hive服务
# 第一种:可以启动hiveserver2服务,如果启动hiveserver2服务,那么客户只能使用beeline工具连接
# 监听状态不退出
[hadoop@master ~]$ hiveserver2
# 后台启动
[hadoop@master ~]$ hive --service hiveserver2 &
# 后台启动,日志信息送入黑洞
[hadoop@master ~]$ hive --service hiveserver2 2>&1 >/dev/null &
# 第二种:可以启动metastore服务
[hadoop@master ~]$ hive --service metastore 2>&1 >/dev/null &
2. hive客户端配置
将下载好的Hive安装包解压到[/opt/modules]目录下,并配置环境变量即可,修改hive-env.sh的相关路径即可。
如果服务端启动的是hiveserver2服务,那么客户端不需要进行过多的配置,可以使用beeline工具连接。
# 服务端启动hiveserver2服务
[hadoop@master ~]$ hive --service hiveserver2 2>&1 >/dev/null &
# 可以先看看 10000 端口是否监听
[hadoop@master ~]$ netstat -anp | grep 10000
# 客户端beeline连接
[hadoop@master ~]$ beeline
beeline> !connect jdbc:hive2://master:10000
Connecting to jdbc:hive2://slave2:10000/practice
Enter username for jdbc:hive2://slave2:10000/practice: hadoop
Enter password for jdbc:hive2://slave2:10000/practice: ******
Connected to: Apache Hive (version 2.3.7)
Driver: Hive JDBC (version 2.3.7)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://slave2:10000/practice>
使用beeline连接时需要输入用户名和密码,输入自己系统用户的用户名和密码即可,如果报错如下:
Error: Could not open client transport with JDBC Uri: jdbc:hive2://slave2:10000/practice: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.security.AccessControlException: Permission denied: user=anonymous, access=EXECUTE, inode="/tmp":hadoop:supergroup:drwx------
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkTraverse(FSPermissionChecker.java:266)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:206)
at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1752)
at org.apache.hadoop.hdfs.server.namenode.FSDirStatAndListingOp.getFileInfo(FSDirStatAndListingOp.java:100)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getFileInfo(FSNamesystem.java:3834)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getFileInfo(NameNodeRpcServer.java:1012)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getFileInfo(ClientNamenodeProtocolServerSideTranslatorPB.java:855)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2217)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2213)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1762)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2211) (state=08S01,code=0)
由于hadoop用户访问HDFS权限不够被拒绝,可以在core-site.xml
中增加以下配置(注意需要在三台集群中的core-site.xml
均配置),之后便可以使用配置的用户登录:
<!-- hadoop.proxyuser.${username}.hosts -->
<!-- hadoop.proxyuser.${username}.groups -->
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
如果服务端启动的是metastore服务,需要对客户端进行配置:
- hive-site.xml
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
</property>
</configuration>
可以在客户端直接使用hive连接远程的metastore服务,操作hive数据库。