目录
一、hive的概念和由来
(1)Hive的概念
(2)Hive的由来
二、Hive的优缺点
三、基础环境准备和安装准备
(1)解压安装文件
(2)设置Hive环境
(3)配置Hive组件
(4)初始化元数据
一、hive的概念和由来
(1)Hive的概念
Hive是基于Hadoop的数据仓库工具,可以用来对HDFS中存储的数据进行查询和分析。
Hive对存储在HDFS中的数据进行分析和管理,它可以将结构化的数据文件映射为一张数据库表,通过SQL查询分析需要的内容,查询Hive使用的SQL语句简称Hive SQL(HQL)。Hive的运行机制使不熟悉MapReduce的用户也能很方便地利用SQL语言对数据进行查询、汇总、分析。同时,Hive也允许熟悉MapReduce开发者们开发自定义的Mappers和Reducers来处理内建的Mappers和Reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF,用来在查询中使用。
(2)Hive的由来
Hive起源于Facebook(一个美国的社交服务网络)。Facebook有着大量的数据,而Hadoop是一个开源的MapReduce实现,可以轻松处理大量的数据。但是MapReduce程序对于Java程序员来说比较容易写,但是对于其他语言使用者来说不太方便。此时Facebook最早地开始研发Hive,它让对Hadoop使用SQL查询(实际上SQL后台转化为了MapReduce)成为可能,那些非Java程序员也可以更方便地使用。hive最早的目的也就是为了分析处理海量的日志。
二、Hive的优缺点
三、基础环境准备和安装准备
(1)解压安装文件
1、使用root用户,将Hive安装包 /opt/software/apache-hive-2.0.0-bin.tar.gz路解压到/usr/local/src路径下
[root@master ~]# tar -zxvf /opt/software/apache-hive-2.0.0-bin.tar.gz -C /usr/local/src
2、将解压后的apache-hive-2.0.0-bin文件夹更名为hive;
[root@master ~]# mv /usr/local/src/apache-hive-2.0.0-bin usr/local/src/hive
3、修改hive目录归属用户和用户组为hadoop
[root@master ~]# chown -R hadoop:hadoop /usr/local/src/hive
(2)设置Hive环境
1、关闭 Linux 系统防火墙,并将防火墙设定为系统开机并不自动启动。
[root@master ~]# systemctl stop firewalld
[root@master ~]# systemctl disable firewalld
2、卸载 Linux 系统自带的 MariaDB
# 查询已安装的 mariadb 软件包
[root@ master ~]# rpm -qa | grep mariadb
#卸载已经查询到的mariadb软件包
[root@master ~]# rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64
3、安装MySQL的mysql common、mysql libs、mysql client、mysql server软件包
[root@master ~]# cd /opt/software/tools-software/
[root@master ~]# rpm -ivh mysql-community-common-5.7.18-1.el7.x86_64.rpm
[root@master ~]# rpm -ivh mysql-community-libs-5.7.18-1.el7.x86_64.rpm
[root@master ~]# rpm -ivh mysql-community-client-5.7.18-1.el7.x86_64.rpm
[root@master ~]# rpm -ivh mysql-community-server-5.7.18-1.el7.x86_64.rpm
4、修改 MySQL 数据库配置,在/etc/my.cnf 文件中添加以下数据(在symbolic-links=0 配置信息的下方添加数据)
default-storage-engine=innodb
innodb_file_per_table
collation-server=utf8_general_ci
init-connect='SET NAMES utf8'
character-set-server=utf8
5、启动mysql数据库
[root@master ~]# systemctl start mysqld
6、查看mysqld自动提供给的随机密码
[root@master ~]# cat /var/log/mysqld.log | grep password
7、MySQL 数据库初始化
执行 mysql_secure_installation 命令初始化 MySQL 数据库,初始化过程中需要设定 数据库 root 用户登录密码,密码需符合安全规则,包括大小写字符、数字和特殊符号, 可设定密码为 Password123$。
在进行 MySQL 数据库初始化过程中会出现以下交互确认信息:
1)Change the password for root ? ((Press y|Y for Yes, any other key for No)表示是否更改 root 用户密码,在键盘输入 y 和回车。
2)Do you wish to continue with the password provided?(Press y|Y for Yes, any other key for No)表示是否使用设定的密码继续,在键盘输入 y 和回车。
3)Remove anonymous users? (Press y|Y for Yes, any other key for No)表示是 否删除匿名用户,在键盘输入 y 和回车。
4)Disallow root login remotely? (Press y|Y for Yes, any other key for No) 表示是否拒绝 root 用户远程登录,在键盘输入 n 和回车,表示允许 root 用户远程登录。
5)Remove test database and access to it? (Press y|Y for Yes, any other key for No)表示是否删除测试数据库,在键盘输入 y 和回车。
6)Reload privilege tables now? (Press y|Y for Yes, any other key for No) 表示是否重新加载授权表,在键盘输入 y 和回车。
8、添加 root 用户从本地和远程访问 MySQL 数据库表单的授权
[root@master ~]# mysql -uroot -p
进入mysql界面后:
mysql> grant all privileges on *.* to root@'localhost' identified by 'Password123$'; # 添加 root 用户本地访问授权
mysql> grant all privileges on *.* to root@'%' identified by 'Password123$'; # 添加 root 用户远程访问授权
mysql> flush privileges; # 刷新授权
mysql> select user,host from mysql.user where user='root'; #查询root用户授权情况
(3)配置Hive组件
1、更改环境变量
[root@master ~]# vi /etc/profile
export HIVE_HOME=/usr/local/src/hive
export PATH=$PATH:$HIVE_HOME/bin
# 使环境变量配置生效
[root@master ~]# source /etc/profile
2、修改 Hive 组件配置文件
切换到 hadoop 用户执行以下对 Hive 组件的配置操作。 将/usr/local/src/hive/conf 文件夹下 hive-default.xml.template 文件,更名为 hive-site.xml。
[root@master ~]# su - hadoop
[hadoop@master ~]$ cp /usr/local/src/hive/conf/hive-default.xml.template /usr/local/src/hive/conf/hive-site.xml
3、通过 vi 编辑器修改 hive-site.xml 文件实现 Hive 连接 MySQL 数据库,并设定 Hive 临时文件存储路径
[hadoop@master ~]$ vi /usr/local/src/hive/conf/hive-site.xml
1)找出<name>javax.jdo.option.ConnectionURL</name>(此项为设置mysql数据库连接)
更改value值,改为<value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true&us eSSL=false</value>
2)找出<name>javax.jdo.option.ConnectionPassword</name>(此项为设置mysql数据库中root的密码)
更改value值,改为<value>Password123$</value>
3)找出<name>hive.metastore.schema.verification</name>(此项为验证元存储版本的一致性)
value值默认为false,如果有错,则更改为<value>false</value>
4)找出<name>javax.jdo.option.ConnectionDriverName</name>(配置数据库驱动)
更改value值,改为<value>com.mysql.jdbc.Driver</value>
5)找出<name>javax.jdo.option.ConnectionUserName</name>(配置数据库用户名 javax.jdo.option.ConnectionUserName 为 root)
更改value值,改为<value>root</value>
6)将<name>hive.querylog.location</name>
<name>hive.exec.local.scratchdir</name>
<name>hive.downloaded.resources.dir</name><name>hive.server2.logging.operation.log.location</name>这四个name的value值改为<value>/usr/local/src/hive/tmp</value>
4、在 Hive 安装目录中创建临时文件夹 tmp
[hadoop@master ~]$ mkdir /usr/local/src/hive/tmp
(4)初始化元数据
1、将 MySQL 数据库驱动(/opt/software/mysql-connector-java-5.1.46.jar)拷贝到 Hive 安装目录的 lib 下;
[hadoop@master ~]$ cp /opt/software/mysql-connector-java-5.1.46.jar /usr/local/src/hive/lib/
2、重新启动 hadooop 即可
[hadoop@master lib]$ stop-all.sh
[hadoop@master lib]$ start-all.sh
3、初始化数据库
[hadoop@master ~]$schematool -initSchema -dbType mysql
4、启动 hive
[hadoop@master ~]$ hive