最近在学习数据仓库.根据一篇文章一步一步建立一套完整的数据仓库(基于hadoop),先学习了ETL工具kettle

这里记录一些使用的情况(踩的坑),供以后回过头来看.

 

首先,当然是下载kettle工具了...点击下载kettle工具,这里拿最新的版本7.1来举例.下载后,直接解压就可以使用了.

但如果想链接hive还是很难受的.

公司搭建了一套hadoop的环境,所有我就没有自己搭建环境来测试了..直接使用公司的.公司的搭建的是CDH5.13版本的hadoop环境,hadoop是2.6.0版本的.

首先要链接hive需要替换配置文件

从管理页面下载hive的配置文件

hadoop连接多个数据库 hadoop怎么连接数据库_hadoop连接多个数据库

点击hive进入hive管理界面

然后

hadoop连接多个数据库 hadoop怎么连接数据库_jar包_02

下载配置文件后,解压出来将下面4个文件复制替换kettle解压后的data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25下面的文件(元hdp25下右的替换,没有的就是新增)

然后修改kettle配置文件data-integration\plugins\pentaho-big-data-plugin  下面的plugin.properties 文件  将

active.hadoop.configuration= 这里补充为hdp25(这里的hdp25和刚才替换配置文件的文件夹同名)

这样,重启kettle(Spoon.bat) 

新建一个转换或作业  在主对象树view下

hadoop连接多个数据库 hadoop怎么连接数据库_hadoop_03

右键 DB连接 新建连接

hadoop连接多个数据库 hadoop怎么连接数据库_hive_04

输入相关信息点击测试.出现提示成功的小窗口就成功了.有时候会失败,然后就还需要下载hadoop的jar包

1,从https://mvnrepository.com/ 搜索hadoop下载这几个中的对应hadoop版本的jar包

hadoop连接多个数据库 hadoop怎么连接数据库_kettle_05


hadoop连接多个数据库 hadoop怎么连接数据库_hadoop连接多个数据库_06

hadoop连接多个数据库 hadoop怎么连接数据库_kettle_07

因为我们公司的是这个版本.所以就下这个版本.找对应版本下载就行,其他三个也同样下载对应版本的jar包.然后放在\data-integration\lib下面.

hadoop连接多个数据库 hadoop怎么连接数据库_jar包_08

2,将此目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations 下面(上面data-integration\plugins\pentaho-big-data-plugin/plugin.properties文件指定的配置)

hadoop连接多个数据库 hadoop怎么连接数据库_kettle_09

删除对应的文件夹下面lib包里面所有hive*开头的jar包,然后下载你所安装hadoop环境上的hive中的所有hive*开头的jar包,复制进去,还是以我的环境举例,下载添加如下jar包

hadoop连接多个数据库 hadoop怎么连接数据库_hive_10

然后再重启kettle.在照上面的连接步骤去连接,应该就能成功了.

 

PS:在运行任务或转换时会遇到各种各样的jar报错,需要注意的是,最好使用hadoop环境上的jar包添加到kettle下lib中,这样才不会因为版本的问题而报错.