kettle基础介绍kettle,ETL工具的一种,现在kettle改名了,叫Pentaho Data Integration(PDI),但更多时候大家还是习惯用之前的名字kettle。Kettle是一款国外开源的ETL工具,纯java编写(依赖jdk),可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle中有两种脚本文件,transformation(.k
转载
2023-09-27 16:25:16
109阅读
这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程。结果各种理由,一推再推。今天索性将这篇文档发布出来,分享给大家,例子等有空再补上。这是一篇基于kettle3.2基础上完成的kettle插件文档。然而现在最新版的kettle的界面已经完全变了样了,但是那些组件还是那么熟悉。对数据处理稍微熟悉点的应该对kettle都不陌生,kettle是一个快速格式化和数据抽取的工具。好
转载
2024-06-24 13:23:23
17阅读
文章目录前言kettle - 清洗 mongodb 数据案例一、需求二、kettle开发1、新建mongodb数据查询2、配置kettleTest集合与清洗后kettleTestClear集合字段映射3、根据_id进行排序4、使用java脚本将日期格式化5、进行字段选择6、将delete字段进行值映射7、mongo输出8、最后加一个写日志组件方便记录三、测试到此案例演示结束!!! kettle
转载
2023-08-12 12:57:01
452阅读
1、转换 转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。实例:步骤是转换里的基本组成部分,也可被称为控件。例如上图的表输入和文本文件输出。 跳是步骤之间带箭头的连接线,即数据的通道,用于连接两个步骤,实现将元数据从一个步骤传递到另一个步骤。在kettle中所有步骤都是以并发方式执行的。下面是创建一
转载
2023-12-26 11:46:24
118阅读
kettle核心概念可视化编程kettle可以被归类为可视化编程语言,因为kettle可以使用图形化的方式定义复杂的ETL程序和工作流。kettle里的图就是转换和作业两部分可视化编程一直是kettle里的核心概念,他可以快速构建复杂的ETL作业和减低维护工作量。同时他隐藏了很多细节,业务人员也可以使用。转换转换(transformation)是ETL解决方案中最重要的部分,他处理抽取、转换、加载
转载
2024-04-22 10:18:57
104阅读
转换机制 每个转换步骤都是ETL数据流里面的一个任务。转换步骤包括输入、处理和输出。输入步骤从外部数据源获取数据,例如文件或者数据库;处理步骤处理数据流,字段计算,流处理等,例如整合或者过滤。输出步骤将数据写会到存储系统里面,例如文件或者数据库。 图 1 转换步骤示例1. Step类图简介 Kettle为扩展插件提供了4个扩展点,这4个扩展点也是每个步骤的组成。每个类都有其特定的目
转载
2024-04-11 13:47:14
151阅读
# MongoDB 与 Kettle 的结合使用
在现代大数据环境中,MongoDB 和 Kettle (也称为 Pentaho Data Integration, PDI) 是两个备受欢迎的工具。MongoDB 是一个高性能、高可用性、易扩展的 NoSQL 数据库,而 Kettle 是一款强大的 ETL (提取转换加载) 工具,能够帮助用户轻松地在不同数据源之间进行转换和同步。
## Mon
原创
2024-09-12 06:52:33
15阅读
目录项目场景问题分析解决方案MongoDB Delete插件使用总结项目场景项目使用的ODS层数据库是MongoDB;在数据中心从DB层向ODS层同步数据过程中,发现有张ODS表在同步过程中,数据突然发生锐减,甚至于该ODS表数据清0。同步技术使用的是kettle,在该ODS表的同步转换中,只有两个控件用来处理MongDB数据:一个是kettle本身自带的MongoDB output,一个是使用的
转载
2024-07-10 16:35:00
110阅读
相关概念:Kettle数据清洗是采用元数据(Meta-data)驱动,以数据流的方式进行的,数据从数据源(数据库/文件等)在一系列相连的step之间依次向后流动,各个step完成对流经该step的数据进行需要的处理工作。Kettle中的数据转换组件按粒度从小到大分为Step、Trans、Job。Step:是完成单一具体功能的组件,如从文件中读取数据、对流中的字段进行字符串拆分操作、对不能为空的字段
转载
2023-10-22 08:54:46
99阅读
基本配置Configure Connection Tab 数据库连接Connection timeout:尝试连接数据库所等待的最大时间(毫秒),空为无限,建议5000Socket timeout:sql在执行成功之前等待读写操作的时间(毫秒),空为无限,建议5000Output Options Tab 输入表与相关设置Truncate option:在数据传输前清空表Upda
转载
2023-06-13 18:27:48
684阅读
点赞
1评论
1. 插入/更新按照官方资料说明,插入/更新实现的功能只有两个:依据查询关键字段,将未被发现的行记录插入到表中。如果行记录在表中被找到,则比较需更新的字段,若更新字段不一致,则进行更新操作。插入\更新操作并不要求数据流里的字段及字段名称与目标表中的字段及字段名称一致,只需要自定义好映射条件即可。在MySQL中构建两个表personal_a和personal_b,其创建语句及原始数据如下。creat
转载
2024-01-20 22:20:38
82阅读
文章目录1. 初步体验:csv 转为excelKettle概念配置mysql链接mysql 一对多关联查询结果保存到mongodb中 1. 初步体验:csv 转为excelWindows环境下安装pdi-ce-8.0.0.0-28.zip ,解压后执行lib下的Spoon.bat 将csv输入拖入 双击拖进去的csv,浏览选择csv文件,其他配置默认 点击获取字段,然后再点击预览同理将excel
转载
2023-08-26 19:37:57
233阅读
经过测试发现,如果 MongoDB 需要验证的话,kettle 的 “MongoDB input” 组件是无法连接 MongoDB 的。那么我们怎么用 kettle 读入 MongoDB 的数据呢,笔者是如下操作的。第一步:把 MongoDB 的数据导出成 JSON 文件第二步:把第一步的操作设置成定时任务第三步:读取 JSON 文件 经过测试发现,kettle 无法
转载
2016-08-05 17:38:00
318阅读
目录一、基本知识储备二、前期准备三、将数据导入MongoDB四、MongoDB数据迁移至Hbase一、基本知识储备1、MongoDBMongoDB基本概念:数据库(database)集合(collection)文档(document)MongoDB基本指令:连接MongoDB:mongo IP:27017显示所有数据库: show dbs/ show databases进入指定数据库名: use
转载
2024-08-14 08:49:36
282阅读
kettle:mongdb与mysql互传数据
转载
2023-06-07 15:49:51
471阅读
kettle 转换命名参数从将上一转换的参数传递到下一转换中1.知识点1)如何将转换中的行记录传递到job(结果)中。2)如何使用转换的命名参数功能获取到上一转换中的参数。2.需求及实现1)需求: 如下图所示在转换1中将转换中的结果值传递到作业中,通过转换2的转换命名参数设置接收来自job中的值并将其设置为参数传递到转换2的内部。2)实现:实现将转换1中的结果值从转换传递到job中。从表输入中获取
转载
2023-10-25 05:38:24
264阅读
概念转换包括一个或多个步骤,步骤之间通过跳(hop)来连接。跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。步骤是转换的基本组成部分,以图标的形式出现。如(表输入、文本文件输出)。步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。这说明,跳是步骤之间带箭头的连线, 其实是两个步骤之间的,被称为
转载
2024-01-03 15:10:51
37阅读
转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。点击输入创建一个转
转载
2024-04-15 15:59:28
53阅读
# 使用Kettle导出数据到MongoDB
## 简介
Kettle是一款功能强大的开源ETL(Extract, Transform, Load)工具,可以用于数据的抽取、转换和加载。在本文中,我们将探讨如何在Kettle中使用MongoDB输出插件将数据导出到MongoDB数据库。
## 整体流程
下面是实现"Kettle MongoDB Output"的整体流程:
| 步骤 | 描
原创
2023-10-31 10:10:33
148阅读
# Kettle与MongoDB的整合实现
## 简介
在本文中,我将向你介绍如何使用Kettle工具与MongoDB进行整合,具体来说就是实现"Kettle MongoDB List"的功能。Kettle是一款强大的ETL工具,而MongoDB是一种流行的NoSQL数据库,通过将它们结合使用,我们可以更方便地处理和分析大量的数据。
在本文中,我将按照以下步骤来指导你完成"Kettle Mon
原创
2023-11-07 04:57:10
64阅读