hadoop kettle 文件导入 hadoop导出文件

转载

autohost 2023-07-12 11:20:37

文章标签 hadoop kettle 文件导入大数据 Hadoop xml hadoop 文章分类 Hadoop 大数据

一、需求说明

将源表（T_USER）中的用户信息同步到Hadoop中，然后再抽取Hadoop文件中数据到文本文件中。

二、启动kettle

双击 Spoon.bat 就能启动 kettle 。

三、创建转换

Hadoop集群配置说明

首先需要从hadoop集群中（/../hadoop-3.1.2/etc/hadoop）复制core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml文件到shim文件夹中(..\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514)，替换已有的文件。

hadoop kettle 文件导入 hadoop导出文件_hadoop

注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。由于core-site. xml 里面用的 hostname 连接的，而我们配置的时候用的 ip，所以需要修改core-site.xml为ip,然后重启Spoon。

hadoop kettle 文件导入 hadoop导出文件_大数据_02

由于Hadoop权限管理是弱管理，此处用户名和密码可以缺省。不过往Hadoop创建文件需要进行权限鉴证，所以此处修改Hadoop中的core-site.xml文件如下所示，表示不经过任何验证，所有用户拥有全部权限。(修改此配置需要重启hadoop)：

`<property> <name>hadoop.security.authorization</name> <value>false</value> </property>`

打开 kettle，点击文件->新建->转换。
HDFS连接配置说明

打开左侧“主对象树”-》“Hadoop Clusters”新建一个Hadoop集群配置，此处我采用的是一个伪分布式集群环境，输入集群信息，点击测试，右边是测试结果。

hadoop kettle 文件导入 hadoop导出文件_hadoop kettle 文件导入_03

填写相应的配置值。具体含义见下表。

选项	含义
Cluster Name	集群名称，自定义。
Storage	指定存储类型。类型如下:HDFS，MapR，WASB
Hostname (storage)	存储的主机名/IP
Port(storage)	访问端口
Username (storage)	访问用户
Password (storage)	密码
Hostname (JobTracker)	JobTracker节点主机名/IP
Port (JobTracker)	JobTracker节点访问端口
Hostname (ZooKeeper)	Zookeeper节点主机名
Port (ZooKeeper)	Zookeeper节点访问端口
URL (Oozie)	Oozie客户端地址