随企业内部的信息业务系统种类不断增长,新的应用也不断出现。如基于各种已有的应用系统及其数据开发的数据仓库、经营分析、CRM客户关系等应用,已经成为企业信息竞争力的关键。各种应用的数据存在于不同的应用系统孤岛中,能及时进行信息交换和共享是信息使用价值所在。传统ETL是通过Sql接口从生产数据库抽取、或由生产数据库应用开发商根据ETL的要求定期生成接口文件,其弊端是:1)ETL不能实时,一般1天一次;2)无法识别增量数据,抽取的垃圾多、效率低、消耗资源、影响生产系统。

前言

随企业内部的信息业务系统种类不断增长,新的应用也不断出现。如基于各种已有的应用系统及其数据开发的数据仓库、经营分析、CRM客户关系等应用,已经成为企业信息竞争力的关键。各种应用的数据存在于不同的应用系统孤岛中,能及时进行信息交换和共享是信息使用价值所在。传统ETL是通过Sql接口从生产数据库抽取、或由生产数据库应用开发商根据ETL的要求定期生成接口文件,其弊端是:1)ETL不能实时,一般1天一次;2)无法识别增量数据,抽取的垃圾多、效率低、消耗资源、影响生产系统。

Enhanced ETL系统基本定位和技术体系

数据共享架构 数据共享解决方案_数据

Enhanced ETL提供增量数据实时抽取、转换、实时增量订制文件接口、直接装载等功能,实现了下列关键技术的突破:

  • Oracle数据库的实时增量跟踪技术:解决实时增量抽取问题。
  • 数据存储和增量变化通知技术:根据变化跟踪记录中记录所有发生过变化的记录,为传统ETL工具提供所需要的增量数据及其通知接口,支持传统ETL实现增量数据的实时抽取。
  • 支持一系列的实时数据转换和装载。

Enhanced ETL的技术特点

Enhanced ETL是实时或准实时的ETL解决方案,支持以低干扰、高灵活性的数据抽取和复制方式、转换可定制方式,实现数据集中分发,即实现了广域网、异构、多平台环境之下的数据实时交换。

 

  • Enhanced ETL支持下列的实时转换和直接装载:

   1)支持源端和目标端用户名不同的转换;

   2)源端和目标端表名不同的转换;

   3)源端和目标端字段名不同的转换;

   4)支持对一个表的字段增加,删除,修该源字段类型;

   5)对NUMBER类型数据作的+, -, *, /的转换。支持给一个列设置默认值,当该列为空时自动替换为设置的默认值;

   6)行过滤:条件可以为一个条件表示式:例如 (Col1 + 3) > col2 AND col3 IS NOT NULL。

 

  • Enhanced ETL软件可帮助第三方ETL工具实现实时或准实时、增强的数据抽取方案

   1) 解决目前需要应用厂商提供接口文件的复杂程度,以及需要每天对update的记录进行全表抽取避免每天的全量数据处理所带来的问题;

   2) 提供增量识别机制:使得第三方ETL简单容易识别增量数据;该工具利用对生产系统ORACLE redo log的跟踪机制,来对生产系统的数据进行变化跟  踪,然后将跟踪到的变化数据传输到中间数据库上,在中间数据上对数据进行整合、过滤和判断,自动生成和ETL的接口数据;可以配置和设定间隔,支持第三方ETL增量抽取间隔到每几秒钟、几分钟、10分钟的生成一个接口文件;

   3) 支持第三方ETL也可以从镜像库中获取所有需要的其他数据(例如首次数据抽取,或者全量数据抽取);

   4) 支持提供数据更多的价值信息:如增量变化数据的Before/After值等变化时间、变化的日志信息,以支持更多类型的数据分析;

 

  • Enhanced ETL软件可结合转换和订制增量文件接口落地功能,支持传统ETL更加高效、支持跨网络、跨系统之间的数据实时交换。

Enhanced ETL支持的环境

数据库版本:

Oracle 8i,9i,10g,11g

异构硬件平台:

Sun, HP, IBM, x86

异构操作系统:

Solaris, AIX, HP-UX, Linux, windows

存储系统:

EMC,IBM,HDS、HP、SUN及其它通用的SCSI/FC存储系统

 

 

功能特点

  • 跨平台、实时、低干扰地抽取转换装载
  • 数据首次同步与实时增量一体化进行
  • 更多数据价值信息,如数据时间识别信息
  • 支持第三方ETL增量识别、数据实时提取
  • 灵活架构构建数据共享、数据交换平台

 

性能效果

  • 实时增量资源占用可控,约5%左右
  • 实现数分钟提交增量变化信息和数据
  • 降低ETL抽取对生产系统的性能影响
  • 支持大型数据库的性能要求