上篇文章回顾:

上篇文章主要讲了如何使用get节点和post节点从网络中来获取数据,除了从网络这种数据源之外,更多的是从本地文件来读取数据。本地文件有excel,txt,json串,xml文件等,这些不同格式的文件是如何进行解析的呢?本篇内容主要讲解如何通过kettle的文件处理节点来从本地文件获取数据。

获取excel数据:

最终展示结果如下,预览数据展示的就是从excel中读取的数据,具体是如何实现的呢?

kettle 读取hive kettle读取文件_数据

第一步:将“Excel输入”节点拖拽到工作区,如下图所示

kettle 读取hive kettle读取文件_字段_02

第二步:双击“Excel输入”节点,进行配置,在“文件”选项卡中:1,点击浏览按钮选择本地excel文件;2,点击增加将文件添加到3区域;


kettle 读取hive kettle读取文件_kettle 读取hive_03

Excel文件

kettle 读取hive kettle读取文件_选项卡_04

文件页签配置

 第三步:在“工作表”选项卡,点击“获取工作表”按钮。(其实获取的就是sheet页的名称)如下图:

kettle 读取hive kettle读取文件_字段_05

第四步:在“字段”选项卡中,点击“获取来自头部数据的字段”,如下图。(“内容”选项卡,“错误处理”选项卡,“其他输出字段”选项卡 不需要进行配置)

kettle 读取hive kettle读取文件_数据_06

第五步:点击“预览记录”按钮,查看最终结果。

获取txt文本数据:

最终展示结果如下图,预览数据中展示的就是从txt文档中获取的数据。

kettle 读取hive kettle读取文件_数据_07

第一步:在工作区拖入“文本文件输入”节点,如下图所示:

kettle 读取hive kettle读取文件_数据_08

第二步:双击“文本文件输入”节点,进行配置,在“文件”选项卡中:1,点击浏览按钮选择本地txt文件;2,点击增加;


kettle 读取hive kettle读取文件_字段_09

文本文件

kettle 读取hive kettle读取文件_字段_10

文件页签配置

第三步:在“字段”选项卡中,点击获取字段,如下图所示:

kettle 读取hive kettle读取文件_kettle 读取hive_11

第四步:点击预览数据,查看最终结果。

总结:

本篇文章主要讲了如何使用kettle的文件操作节点来获取数据,主要从excel文件中,文本文件中读取数据。当然,除了excel输入节点,文件文件输入节点,还有很多其他格式的文件也是可以方便的进行解析的,如xml文件,json文件,edi文件,yaml文件,csv文件等,相信这些节点大家都能够独立完成实验。下篇文章主要讲从数据库中来获取数据,因为数据库是软件工程师们最熟悉的存储介质了,熟练使用数据库,能非常高效的完成工作。