附:Kettle实战视频教程,需要的朋友可以看看学习下哈~~

  • kettle实战第一讲-文件和数据库表的互相转换处理_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第二讲-数据库单表的全量同步_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第三讲-数据库单表的增量同步_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第四讲-同步错误原因记录到数据库日志表_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第五讲-多个数据库表融合到一个数据库业务表_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第六讲-比较不同的数据库表进行数据的一致性处理_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第七讲-通过配置文件做表的全量同步,一个作业统统搞定_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第八讲-通过配置文件做数据表的增量同步,一个作业统统搞定_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第九讲-通过配置文件做表的全量同步_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第十讲-windows下的kettle作业调度_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
  • kettle实战第十一讲-Linux下的kettle作业调度_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

以下操作都在5.0.1版本下进行开发,其余版本可以进行自动比对

在平时工作当中,会遇到这种情况,而且很常见。比如:1、自动生成文件TXT或者EXCEL(电信行业该需求居多),上传至某服务器;2、双方数据对接,对方提供数据库视图

针对以上情况,笔者就写下具体怎么实现

1、自动生成EXCEL文件

kettle 导入hdfs kettle导入excel文件_数据库


1)如上图,选择表输入(读取视图或者table数据),EXCEL输出(准备输出的EXCEL文件),连接两个控件。

kettle 导入hdfs kettle导入excel文件_kettle 导入hdfs_02


2)配置数据库连接(上节有介绍jdbc),后续可以通过jndi进行连接,通过配置实现(如同springmvc的配置)。写出查询sql语句,点击预览,查看sql语句是否报错,如果没有报错,会展示如下预览界面

kettle 导入hdfs kettle导入excel文件_字段_03

3)双击EXCEL输出,进入EXCEL配置界面,如下图

kettle 导入hdfs kettle导入excel文件_数据库_04


4)点击浏览,配置生成文件的路径和文件名,指定日期格式可以在文件名称后添加日期,非常适合定期生成文件需要

kettle 导入hdfs kettle导入excel文件_字段_05


5)选到内容页,追加代表在文件后进行追加操作,不覆盖源文件

kettle 导入hdfs kettle导入excel文件_自动生成_06


6)点击获取字段,会自动填入前面步骤查询的表字段,生成的是BigNumber类型的id,如果想要数字型的可以修改为Integer,全部填写完毕后,点击确认

kettle 导入hdfs kettle导入excel文件_kettle 导入hdfs_07


7)点击运行

kettle 导入hdfs kettle导入excel文件_数据库_08


8)会自动生成如下EXCEL文件

kettle 导入hdfs kettle导入excel文件_自动生成_09

2、自动生成TXT文件

kettle 导入hdfs kettle导入excel文件_字段_10


如上图,将excel换成txt,shift连接后,双击鼠标左键打开配置,输入文件名

kettle 导入hdfs kettle导入excel文件_字段_11


切换到内容,比较常见的是选择分隔符,本文用常见的|代替,

kettle 导入hdfs kettle导入excel文件_自动生成_12


字段选项,获取字段,选择相应的字段格式,点击确定

kettle 导入hdfs kettle导入excel文件_字段_13


kettle 导入hdfs kettle导入excel文件_字段_14