最近在学习数据仓库.根据一篇文章一步一步建立一套完整的数据仓库(基于hadoop),先学习了ETL工具kettle
这里记录一些使用的情况(踩的坑),供以后回过头来看.
首先,当然是下载kettle工具了...点击下载kettle工具,这里拿最新的版本7.1来举例.下载后,直接解压就可以使用了.
但如果想链接hive还是很难受的.
公司搭建了一套hadoop的环境,所有我就没有自己搭建环境来测试了..直接使用公司的.公司的搭建的是CDH5.13版本的hadoop环境,hadoop是2.6.0版本的.
首先要链接hive需要替换配置文件
从管理页面下载hive的配置文件
点击hive进入hive管理界面
然后
下载配置文件后,解压出来将下面4个文件复制替换kettle解压后的data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25下面的文件(元hdp25下右的替换,没有的就是新增)
然后修改kettle配置文件data-integration\plugins\pentaho-big-data-plugin 下面的plugin.properties 文件 将
active.hadoop.configuration= 这里补充为hdp25(这里的hdp25和刚才替换配置文件的文件夹同名)
这样,重启kettle(Spoon.bat)
新建一个转换或作业 在主对象树view下
右键 DB连接 新建连接
输入相关信息点击测试.出现提示成功的小窗口就成功了.有时候会失败,然后就还需要下载hadoop的jar包
1,从https://mvnrepository.com/ 搜索hadoop下载这几个中的对应hadoop版本的jar包
如
因为我们公司的是这个版本.所以就下这个版本.找对应版本下载就行,其他三个也同样下载对应版本的jar包.然后放在\data-integration\lib下面.
2,将此目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations 下面(上面data-integration\plugins\pentaho-big-data-plugin/plugin.properties文件指定的配置)
删除对应的文件夹下面lib包里面所有hive*开头的jar包,然后下载你所安装hadoop环境上的hive中的所有hive*开头的jar包,复制进去,还是以我的环境举例,下载添加如下jar包
然后再重启kettle.在照上面的连接步骤去连接,应该就能成功了.
PS:在运行任务或转换时会遇到各种各样的jar报错,需要注意的是,最好使用hadoop环境上的jar包添加到kettle下lib中,这样才不会因为版本的问题而报错.