Kettle的作业与转换作业(Job)和转换(Transformation)是 Kettle Spoon 设计器的核心两个内容,这两块内容构建了整个 Kettle 工作流程的基础。转换(Transformation):主要是针对数据的各种处理,一个转换里可以包 含多个步骤(Step),每个步骤定义了对数据流中数据的一种操作,整个转换定义了一条数据流。作业(Job):更加趋向于流程控制。一个作业里包
kettle插件调试比较麻烦,因为是两个不同工程的依赖,但是大家如果掌握方法,其实也很简单,回顾JAVA常用的调试手法,如Link Source、JAVA远程调试,如果大家了解maven,甚至可以直接依赖调试,下面我来作重讲讲前面两种调试手法。准备工作:1、通过eclipse上的svn插件下载kettle4.0源码,地址是:http://source.pentaho.org/svnkettler
转载
2024-05-06 15:52:01
155阅读
一,说明 kettle不仅可以处理传统的数据库数据或文件,也对大数据集群有很好的支持,本文提供一个kettle读取hbase列式数据库的例子,本例中,大数据集群使用的是CDH5.14,kettle使用的是8.3版本。注意:不同的kettle版本对CDH版本的支持是不同的,具体要看kettle官方文档说明https://help.pentaho.com/Documentat
Kettle 输入步骤1. 生成记录/自定义常量2. 获取系统信息3. 表输入4. 文本文件输入4.1 文本文件输入2. 固定宽度文件输入5. XML 文件输入5.1 Get data from XML5.2 XML input stream (StAX)6. Json 输入7. 其他输入步骤 1. 生成记录/自定义常量用于生成自定义的数据一般用于测试, 固定数据的输入.生成记录步骤每行的数据都
转载
2024-03-26 04:48:24
269阅读
导读Excel数据导入Oracle数据库的方法:1、使用PL SQL 工具附带的功能,效率比较低可参考这篇文章的介绍:http://www.2cto.com/database/201212/176777.html2、使用Kettle工具,免费,相比之下功能更丰富,可实现一定的业务逻辑,推荐使用注:Kettle下载后解压即可使用,但是依赖jvm,可以安装一下JDK 1.7(推荐)Excel数据导入O
转载
2024-03-24 14:21:37
171阅读
目录 目的步骤说明1. 获取目标库信息2. 创建输出步骤,将数据输出到目标表3. 将输出步骤和上一步关联起来精简版代码完整代码目的从mysql的源表[etl_src_table]中抽取数据到目标表[etl_dest_table] ,两个表的结构都是相同的。CREATE TABLE `etl_dest_table` (
`id` int(11) NOT NULL AUTO_INCREM
转载
2024-03-30 17:50:14
112阅读
kettle实现整库迁移 文章目录kettle实现整库迁移1 背景2 思路2.1 获取表名2.2 循环建表和同步2.2.1 如何设置循环2.2.2 建表和同步2.2.1 获取变量2.2.2 建表2.2.3 单个表同步3 数据库连接共享4 其他 1 背景库与库之间做数据同步结构不变原始是数据库和目标数据库都是MySQL2 思路鉴于是整个库进行数据同步,表结构和表名都不需要变化。因此,在转换过程中并不
转载
2024-03-13 12:26:35
749阅读
最近学习大数据的处理,由于项目开发的需要,使用一种简单的方式来将Excel中的数据导入到数据库中,开发使用的kettle工具。kettle工具安装很简单,从官网上下载下来之后,直接解压到制定的盘符下即可(前提是你配置了JAVA的环境变量,path,classpath)。在WINDOWS环境下双击Spoon.bat文件,出现如下图: 点击如图所示的图标,进行本地文件导入的配置 选择红色线框下的选项,
转载
2024-02-19 13:09:38
379阅读
【实验目的】1.利用Kettle的“表输入”,“表输入出”,”JavaScript代码”组件,实现数据全量更新。2.熟练掌握“JavaScript代码”,“表输入”,“表输入出”组件的使用,实现数据全量更新。【实验原理】通过“表输入”对MySQL表格的数据读入,然后通过“JavaScript代码”更新抽取数据的时间,再通过“表输入出”保存表格到MySQL数据库。【实验环境】操作系统:Windows
转载
2024-04-05 07:59:18
408阅读
kettle7.0数据库迁移(Postgresql迁移到oracle)一、说明1.下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip/download?use_mirror=nchc 2.向pdi-ce-7.1.0.0-12\data-integration
转载
2024-04-30 17:25:56
786阅读
目录拉取指定版本的kettle源码与配置其启动环境启动过程中遇到的报错引入插件或者是自定义插件idea打包jar跳过test拉取指定版本的kettle源码与配置其启动环境拉取kettle源码需要配置指定的maven环境(否则很多依赖都下载不了),具体的setting文件可以在官网下载(右键另存为就行,然后在idea中的maven配置中把setting文件更换为这个刚刚保存的文件):https://
转载
2024-05-29 15:01:32
480阅读
在此,我们主要对示例1进行说明。为方便演示,我们在数据库A和数据库B中分别创建表userA和表userB。最终目标为将数据表userA中的数据插入到数据表userB中。create database testA;
use testA;
create table `userA`(
`id`int(10) primary key,
`name` varchar(50),
`ag
转载
2024-10-21 12:47:00
288阅读
这里简单概括一下几种具体的应用场景,按网络环境划分主要包括:
表视图模式:这种情况我们经常遇到,就是在同一网络环境下,我们对各种数据源的表数据进行抽取、过滤、清洗等,例如历史数据同步、异构系统数据交互、数据对称发布或备份等都归属于这个模式;传统的实现方式一般都要进行研发(一小部分例如两个相同表结构的表之间的数据同步,如果sqlserver数据库可以通过发布/订
使用kettle连接数据库报错:ORA-12505, TNS:listener does not currently know of SID given in connect descriptor ORA-12505: TNS: 监听程序当前无法识别连接描述符中所给出的SID原来是以前的数据库用的是sid监听,现在是servicename了。由: 改为:
转载
2024-06-12 08:10:39
230阅读
由于工作需要,简单测试了一下mysql/postgresql的导入性能,均在无特殊优化的前提下进行的测试。一、测试环境本地笔记本电脑,配置如下:
cpu: i7-5500u
内存:12G
硬件:固态,平均写入速度大概在230M/s
笔记本电脑采用vbox安装centos7.3,内核版本3.10以上。
分配给centos虚拟机的内存为6G。
mysql/postgresql数据库均以docker方式
转载
2021-01-27 19:38:13
975阅读
2评论
Kettle实现oracle到hbase的数据抽取 本文采用kettle最新版本:7.1 (安装:下载下来后,直接解压就可以) cdh版本为5.11.0 一、 环境配置操作流程:(1) 由于最新版本的插件kettle7.1只能支持cdh5.
转载
2024-09-28 21:57:12
391阅读
概述由于YMP不支持PostgreSQL数据库,因此使用开源工具Kettle迁移PosgreSQL数据到YashanDB。本文介绍了Windows环境的Kettle使用方式进行数据迁移。 环境Kettle版本:8.3JAVA版本:1.8源PostgreSQL:版本12目标YashanDB:23.2.1.100 执行方式Kettle可以在Windows执行,Windows环境可以
1、表输入属于输入类控件,其作用是从数据库中读取表数据。属性:步骤名称:可自定义。数据库连接:可以点击右侧的新建按钮进行新建。SQL:编写查询sql语句,也可以点击获取SQL查询语句按钮选择相应表生成sql语句。Store column info in step meta data:选择这个选项可以使用存储在KTR中的缓存元数据,而无需建立数据库连接来查询表。注意:如果您使用Spark作为您的处理
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理
原创
精选
2024-05-14 14:26:47
783阅读
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳
原创
2024-05-14 14:28:24
502阅读