参考:
创建hive用户
第一步,创建hive用户并赋权限
用mysql的root用户登录进入命令行
#mysql -uroot -p123456
创建hive用户
mysql # create user 'hive' identified by 'hive';
给hive用户赋权限
mysql # grant all privileges on hivedb.* to 'hive'@'%' identified by 'hive';
mysql # grant all privileges on hivedb.* to 'hive'@'localhost' identified by 'hive';
刷新mysql系统权限
# flush privileges;
第二步,创建hive数据库
用root用户登录
# mysql -uroot -p123456
创建hive的数据库
mysql # create database hivedb;
查看hive的用户的数据库
mysql# show databases;
用户hive用户登录
#mysql –uhive -phive
Hive用户查看数据库
mysql# show database
使用hivedb数据库
mysql#use hivedb
创建表
mysql#create table test(name varchar(10));
查看test表
mysql#show tables;
安装hive
第一步,解压已下载好的hive安装包
#tar –zxvf hive-1.1.0-cdh5.4.5.tar.gz
解压后删除hive安装包,节省磁盘空间
#rm –rf hive-1.1.0-cdh5.4.5.tar.gz
第二步,复制mysql的驱动包到hive安装目录的lib目录下
# scp mysql-connector-java-5.1.40-bin.jar /home/hadoop/app/hive-1.1.0-cdh5.4.5/lib
第三步,root用户配置环境变量
#vi /etc/profile
添加以下配置
HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.4.5
export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin
使环境变量及时生效
#source /etc/profile
第四步,配置hive-env.sh
hadoop用户登录
#su hadoop
进入$HIVE_HOME/conf目录,并将文件hive-env.sh.template重命名为hive-env.sh
#mv hive-env.sh.template hive-env.sh
打开hive-env.sh文件并修改配置
#vi hive-env.sh
第五步,配置hive-site.xml文件
在$HIVE_HOME/conf目录下创建hive-site.xml文件
#cd /home/hadoop/app/hive-1.1.0-cdh5.4.5/conf
#echo "" > hive-site.xml
添加以下配置:
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hive.exec.scratchdir</name>
<value>hdfs://cluster1/hive/scratchdir</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>hdfs://cluster1/hive/warehouse</value>
</property>
<property>
<name>hive.querylog.location</name>
<value>/home/hadoop/app/hive-1.1.0-cdh5.4.5/logs</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.150.103:3306/hivedb?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
</property>
<property>
<name>hive.downloaded.resources.dir</name>
<value>/home/hadoop/app/hive-1.1.0-cdh5.4.5/local/${hive.session.id}_resources</value>
</property>
<property>
<name>hive.server2.logging.operation.log.location</name>
<value>/home/hadoop/app/hive-1.1.0-cdh5.4.5/logs/operation_logs</value>
</property>
</configuration>
其中,hive-site.xml文件中的hive.exec.scratchdir和hive.metastore.warehouse.dir的hdfs访问地址需要和hadoop的配置文件core-site.xml中fs.defaultFS的值一致,我的配置是hdfs://cluster1,如下
hive-site.xml文件的配置如下
在$HIVE_HOME目录下创建local和logs目录
#mkdir local
#mkdir logs
第六步,配置log4j
进入到$HIVE_HOME/conf目录下
重命名hive-exec-log4j.properties.template为hive-exec-log4j.properties
#mv hive-exec-log4j.properties.template hive-exec-log4j.properties
重命名hive-log4j.properties.template 为hive-log4j.properties
#mv hive-log4j.properties.template hive-log4j.properties
修改文件hive-exec-log4j.properties和hive-log4j.properties(修改以下两行)
hive.log.dir=/home/hadoop/app/hive-1.1.0-cdh5.4.5/logs
log4j.appender.EventCounter=org.apache.hadoop.log.metrics.EventCounter
hive-exec-log4j.properties
hive-log4j.properties
第七步,启动hadoop
启动zookeeper,进入cdh3节点的~/tools目录
#cd ~/tools/
#./runRemoteCmd.sh "~/app/zookeeper-3.4.5-cdh5.4.5/bin/zkServer.sh start" zookeeper
启动HDFS,进入cdh1节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录,执行./start-dfs.sh
# cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
#./start-dfs.sh
启动YARN,进入cdh1节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录,执行./start-yarn.sh
# cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
#./start-yarn.sh
启动resourcemanager,进入cdh2节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录
# cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
# ./yarn-daemon.sh start resourcemanager
查看各节点进程,进入cdh1的~/tools目录下
#cd ~/tools/
#./runRemoteCmd.sh "jps" all
****************************关闭hadoop集群************************
关闭cdh1的resourcemanager,进入cdh1节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录,执行./yarn-daemon.sh stop resourcemanager
#cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
#./yarn-daemon.sh stop resourcemanager
关闭yarn(也会关闭cdh2的resourcemanager),进入cdh2节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录,执行./stop-yarn.sh
#cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
# ./stop-yarn.sh
关闭HDFS,进入cdh1节点的~/app/hadoop-2.6.0-cdh5.4.5/sbin目录,执行./stop-dfs.sh
# cd ~/app/hadoop-2.6.0-cdh5.4.5/sbin
#./stop-dfs.sh
关闭zookeeper,进入cdh3节点的~/tools目录
#cd ~/tools/
#./runRemoteCmd.sh "~/app/zookeeper-3.4.5-cdh5.4.5/bin/zkServer.sh stop" zookeeper
查看进程,进入cdh1的~/tools目录下
#cd ~/tools/
#./runRemoteCmd.sh "jps" all
第八步,启动hive
#hive
至此,Hive安装完成。
*********************************FAQ*******************************
hive-site.xml文件的hive.exec.scratchdir和hive.metastore.warehouse.dir,第一次我配置成了如下:
hive.exec.scratchdir hdfs://cdh1:9000/ hive/scratchdir
hive.metastore.warehouse.dir hdfs://cdh1:9000/ hive/warehouse
发现启动有问题,于是就改成了hadoop中的core-site.xml配置文件中的fs.defaultFS的值,但是重启后仍会出现以下问题:
像这种情况重启hive服务是无效的,仍会报错,需要用以下方式更正:
登录mysql
#mysql –uhive –phive
以下是我的mysql中的数据库,其中hivedb是我的hive连接的数据库
查看hivedb库的所有表:
其中的DBS和SDS是需要修改的表,这两张表中保存着原来的hdfs的路径(也就是hdfs://cdh1:9000),修改成HA对应的别名即可(也就是core-site.xml文件中的hdfs://cluster1),修改如下
首先查看修改前的hivedb.DBS表的数据:
#select * from hivedb.DBS;
然后修改hivedb.DBS表的hdfs存储路径,并查看修改后的数据,如下:
#update hivedb.DBS set DB_LOCATION_URI='hdfs://cluster1/hive/warehouse' WHERE DB_ID='1';
#update hivedb.DBS set DB_LOCATION_URI='hdfs://cluster1/hive/warehouse/hive.db' WHERE DB_ID='6';
其中的条件DB_ID根据实际数据更新。
然后查看修改前的hivedb.SDS表的数据:
# select * from hivedb.SBS;
然后修改hivedb.SDS表的hdfs存储路径,并查看修改后的数据,如下:
# update hivedb.SDS set LOCATION='hdfs://cluster1/hive/warehouse/hive.db/test2' where SD_ID='6';
# update hivedb.SDS set LOCATION='hdfs://cluster1/hive/warehouse/hive.db/test3' where SD_ID='11';
其中的条件SD_ID根据实际数据更新。
重新进入hive,创建表并添加数据
该问题解决。
完成!