19 表输出

表输出就是把数据写入到指定的表!
如果表不存在,可以动态的创建,也可以手动指定要插入的数据库字段

20 更新

更新就是把数据库已经存在的记录与数据流里面的记录进行对比,如果不同就进行更新
注意:如果记录不存在,就会出现错误

21 插入更新

插入更新就是吧数据库已经存在的记录与数据流里面的记录做对比,如果不同就进行更新。如果记录不存在,就会插入数据

22 删除

1.自定义常量数据
自定义常量数据就是生成Key-value形式的常量数据
2.删除
删除就是删除数据库表中指定条件的数据

转换章节

23 Concat fields

  1. 转换
    转换就是ETL中的Transform:清洗,转换。
    转换在ETL中花费时间最长,一般占据了2/3的时间
  2. Concat fields
    Concat fields 就是多个字段连接起来形成一个新的字段

24 值映射

值映射就是把字段的一个值映射其他的值
数据质量规范上使用非常多,比如各系统对性别字段的定义都不同,但是在数据仓库的存储中要保持一致,这时候就可以通过映射将值定义成统一的存储方式

25 增加常量

增加常量就是在原来的数据流里面添加一列数据,该列数据都是相同的值

26 增加序列

增加序列就是给数据流添加一个序列字段
就像Oracle中添加自增长序列

27 字段选择

字段选择是从数据流中选择字段改变名称修改数据类型
在中间过程中我们会产生最终无用的数据,可以用这一步进行删除

28 计算器

计算器是一个函数集合来创建新字段,还可以设置字段是否移除(临时字段)

29 剪切-替换-操作字符串

1.剪切字符串是指定输入流字段裁剪位置剪切出新字段,注意:位置从0开始
2.字符串替换是指定搜索内容替换内容,如果输入流的字段匹配搜索的内容,就进行替换生成新字段
3.字符串的操作是去除字符串两端的空格大小写切换,并生成新字段

30 去除重复记录和排序记录

  1. 去除重复记录
    去除数据流里面相同的数据行
    注意:必须先对数据流进行排序
  2. 排序记录
    按照指定的字段对数据流降序或升序的排列

31 唯一行哈希值

唯一行(哈希值)就是删除数据流重复的行
注意:唯一行排序+去重的效果一样,但是实现原理不同
唯一行的效率更高

32 拆分字段

拆分字段就是吧字段按照分隔符拆分成两个或多个字段
注意:拆分字段后,原字段就不存在于数据流中了

33 列拆分为多行

按照指定的分割符字段拆分为多行

34 列转行

列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据

去除一些原来的列名,把一列数据变为字段

注意:列转行之前数据流必须进行排序

kettle MongoDB input 删除表数据 kettle删除怎么用_数据


kettle MongoDB input 删除表数据 kettle删除怎么用_数据_02

35 行转列

行转列就是把数据字段的字段名变成一列,把该字段对应的数据列转变成数据列

kettle MongoDB input 删除表数据 kettle删除怎么用_自定义_03


kettle MongoDB input 删除表数据 kettle删除怎么用_字段_04


列转行互逆

36 行扁平化

行扁平化就是把同一组的多行数据合并为一行
注意:
只有数据流的同类数据数据行记录一致才可以使用
数据流必须先排序,否则结果会不正确

应用章节

37 替换NULL值

就是把null值转换为其他的值

38 写日志

写日志主要是在调试的时候使用,把日志信息打印到日志窗口

流程章节

39 Switch-case

kettle MongoDB input 删除表数据 kettle删除怎么用_字段_05

40 过滤记录

kettle MongoDB input 删除表数据 kettle删除怎么用_字段_06

41 空操作

空操作一般作为数据流的终点

42 中止

中止是数据流的终点,如果有数据到这里,将会报错
用来校验数据的时候使用

查询章节

43 HTTP client

HTTP client是使用GET的方式提交请求,获取返回的页面内容
将网页地址存放在自定义常量数据中 (自定义常量数据:用来生成一些不变的数据)
案例:

  1. 首先创建自定义常量数据,将url存放在常量中
  2. 通过HTTP client从url中获取xml文件
  3. 使用Get data from XML,通过循环路径读取,输入你所需要的数据的 XML 文档路径,就可以将XML文件中的数据提取出来,然后设置相应的字段名(记得勾选考虑命名空间)
  4. 输出为excel文件

44 数据库查询

数据库查询就是相当于数据库里面的左连接,它会返回左边表中的全部数据以及右边表中你所指定的字段

45 数据库连接

数据库连接可以执行两个数据库的查询,和单参数的表输入
即通过连接条件,可以实现两张表跨库连接

46 流查询

流查询在查询前把数据都加载到内存中,并且只能进行等值查询

连接章节

47 合并记录

kettle MongoDB input 删除表数据 kettle删除怎么用_字段_07


kettle MongoDB input 删除表数据 kettle删除怎么用_字段_08

48 记录关联(笛卡尔积)

kettle MongoDB input 删除表数据 kettle删除怎么用_字段_09

49 记录集连接

记录集连接就像数据库的左连接、右连接、内连接、外连接
注意:在进行记录集连接之前,要先对记录集进行排序

统计章节

50 分组

kettle MongoDB input 删除表数据 kettle删除怎么用_数据_10

映射章节

51 映射(子转换)

  1. 映射(子转换)
    是用来配置子转换,对子转换进行调用的一个步骤
  2. 映射输入规范
    映射输入规范是输入字段,由调用的转换输入
  3. 映射输出规范
    向调用的转换输出所有列,不作任何处理
    最大的作用就是如果该功能使用重复率高,那么可以将这个功能进行封装,之后可以重复使用

脚本章节

54 执行SQL脚本

执行SQL脚本可以执行一个update语句,用来更新某个表中的数据

作业章节

53 作业

kettle MongoDB input 删除表数据 kettle删除怎么用_数据_11


kettle MongoDB input 删除表数据 kettle删除怎么用_数据_12


kettle MongoDB input 删除表数据 kettle删除怎么用_字段_13

参数章节

kettle MongoDB input 删除表数据 kettle删除怎么用_数据_14

  1. 全局参数
  2. 局部参数
  3. 参数的使用

57 常量传递

常量传递就是先自定义常量数据,在表输入的SQL语句里面使用 ? 来进行替代
? 号的替换顺序就是常量定义的顺序

58 转换命名参数

kettle MongoDB input 删除表数据 kettle删除怎么用_自定义_15

59 设置变量,获取变量

kettle MongoDB input 删除表数据 kettle删除怎么用_自定义_16

60 作业中设置变量

在作业中,可以提前设置变量,然后在接下来的转换中通过获取变量来使用变量,也可以通过**${}**直接使用变量

  1. 设置变量

kettle MongoDB input 删除表数据 kettle删除怎么用_字段_17

  1. 获取变量来使用

kettle MongoDB input 删除表数据 kettle删除怎么用_自定义_18

  1. 直接使用作业中的变量

61 发送邮件