1,kettle资源库
(1)数据库资源库:
数据库资源库可以把所有的ETL信息都保存在关系型数据库中,这种资源库比较容易创建,只要新建一个数据库连接即可,可以使用数据库资源库对话框来创建资源库中的表和索引。
(2)文件资源库:
文件资源库是在一个文件目录下定义一个资源库,因为kettle使用的是虚拟文件系统,,所以这里的文件目录是一个广泛的概念,包括Zip文件,web服务,ftp服务等。
(3)Pentaho资源库:
Pentaho资源库是一个插件,在kettle企业版中有这个插件,这种资源库实际是一个内容管理系统(CMS),具备一个理想的资源库的所有特性,包括版本控制和依赖完整性检查。
注意:kettle7.1版本创建资源库的时候,打开默认是Pentaho资源库,点击other repositories,可以创建数据库资源库与文件资源库。个人认为数据库资源库安全性更高,但是操作性一般;文件资源便于操作,但是权限把控,应该作为重点关注点
2,kettle资源库特性
(1)中央存储:在一个中心位置存储所有的转换和作业。ETL用户可以访问到工程的最新视图。
(2)文件加锁:防止多个用户同时操作。
(3)修订管理:一个理想的资源库可以存储一个转换或者作业的所有历史版本,以便将来参考,可以打开历史版本,并查看变更日志。
(4)依赖完整性检查:检查资源库转换和作业之间的相互依赖关系,可以确保资源库里面没有丢失任何的链接,没有丢失任何转换、作业和数据库连接。
(5)安全性:可以防止未授权的用户修改和执行ETL作业。
(6)引用:重新组织转换、作业、或者重新命名,都是ETL开发人员常见工作,要做好这些工作,需要完整的转换和作业的引用。