天气炎热,写篇文章降降温,防止中暑。
大数据的数据转置过程中,经常需要将hive数据库中的数据迁移到MySQL等关系型数据库中。而目前市场上成熟的方案已经比比皆是,如利用sqoop的方式、kettle等中间工具。
今天正好闲来无事,考虑在不利于以上2种方式的情况下,成功将hive数据库中的数据导入到了MySQL中。以下为实例。

首先附上一张思路图:

hive mysql 导出到 hive数据到mysql_数据迁移


命题:在Hadoop的/file目录中,有一个全国各个城市的坐标(经纬度)文件(coordinate.txt),已利用“\t”分割。现在需要将其存入到hive数据库中,再将hive中的数据导入到MySQL数据库中。

hive mysql 导出到 hive数据到mysql_数据库_02


一、在hive中建立一个实例:如liqx

create database liqx;

二、使用liqx实例,在其中建一张名为coordinate的表,通过“\t”的方式切割字段。(生产环境中涉及到每天的落地日志时,可以以年月日的方式来建立分区“partition”)
①、全国城市坐标(经度纬度):coordinate

CREATE TABLE `coordinate`(
  `code` string, 
  `name` string, 
  `longitude` string, 
  `latitude` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

附上分区(“year”、“month”、“day”)代码:

CREATE TABLE `coordinate`(
  `code` string, 
  `name` string, 
  `longitude` string, 
  `latitude` string)
partitioned by (year string,mounth string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

三、使用load方式将hdfs中的coordinate.txt文件导入到hive数据库中

load data inpath '/user/hive/warehouse/coordinate.txt' into table coordinate;

四、查看一下数据,总共3521行数据

hive mysql 导出到 hive数据到mysql_hive_03


五、在MySQL数据库中创建一张名为“coordinate”的表

hive mysql 导出到 hive数据到mysql_数据库_04


#建表语句#

CREATE TABLE `coordinate` (
  `code` varchar(12) NOT NULL COMMENT '编码',
  `name` varchar(50) DEFAULT NULL COMMENT '城市名称',
  `longitude` double DEFAULT NULL COMMENT '经度',
  `latitude` double DEFAULT NULL COMMENT '纬度',
  PRIMARY KEY (`code`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

六、编写shell脚本,先查询hive,并将得到的结果重定向为txt文件,再将txt文件load到MySQL数据库中

①:创建一个名为coordinate.sh的shell脚本,并给予可执行权限

touch coordinate.sh

chmod +x coordinate.sh

②:查询hive,并将得到的结果重定向为txt文件

hive -e "select * from liqx.coordinate" > /home/data/etl/coordinate/coordinate.txt

③:再将txt文件load到MySQL数据库中

mysql -h192.168.133.135 -uroot -proot test  -e "load data local INFILE '/home/data/etl/coordinate/coordinate.txt' INTO TABLE coordinate FIELDS TERMINATED BY '\t'"

④:再在各语句开始和结尾处进行时间监测,渲染一下后得到shell脚本如下

hive mysql 导出到 hive数据到mysql_数据库_05


七、保存出后执行coordinate.sh文件(执行过程中可再打开一个窗口通过hadoop job -list 查看Hadoop任务)

hive mysql 导出到 hive数据到mysql_hive mysql 导出到_06

hive mysql 导出到 hive数据到mysql_hive mysql 导出到_07


八、通过ll命令可查看到目录中多了一个coordinate.txt文件,即shell脚本中执行hive查询后得到的内容,通过more coordinate.txt命令可对文件内容进行查看

hive mysql 导出到 hive数据到mysql_数据迁移_08


九、再去MySQL中进行查询,验证数据是否被load到coordinate表中

hive mysql 导出到 hive数据到mysql_hive_09


十、比较hive、txt、MySQL中数据量是否一致

select count(1) from liqx.coordinate;

wc -l coordinate.txt

select count(1) from test.coordinate;

hive mysql 导出到 hive数据到mysql_hive mysql 导出到_10

hive mysql 导出到 hive数据到mysql_数据迁移_11


hive mysql 导出到 hive数据到mysql_MySQL_12


然后洗澡睡觉,防掉发、防猝死。