前言

最近接触一个新项目,要用到datastage,翻了一下网上的中文资料很少,决定翻译一些官网资料在这里,方便自己学习回顾。

 

什么是Datastage?

Datastage是一个可视化数据集成工具(ETL工具),能够支持开发者迅速搭建数据仓库。

Datastage能够设计,运行,编译和管理ETL任务,支持数据验证。

Datastage能够支持关系型数据库,可离线,可实时,可作为网站接口。

CDC:change data capture

 

datastage 技术架构 datastage工具_datastage 技术架构

1. Infospheres cdc 能够监控和捕获源库变更
2. 根据复制定义,infosphere cdc 传输变更数据到Infosphere cdc for infosphere datastage
3. Infosphere cdc for infosphere datastage 同过TCP/IP进程将数据传给CDC transaction stage,同时也会发送提交信息,在捕获日志中做标记
4. 每次当infosphere datastage for cdc 服务器发送提交命令时,cdc transaction stage将会创造一个流终端(end of wave)标记,这个标记会向目标库连接stage,发送输出连接。
5. 当目标库的connector stage接收到流终端标记时,它写入的标记信息会写入标记信息表,然后向目标库提交转换
6. Infosphere cdc for infosphere datastage 服务器向目标库的标记信息表请求标记信息
Infosphere cdc for infosphere datastage 服务器收到标记信息

 

 

 

Datastage的ETL过程

Data profiling---->Data Quality or cleansing---->Data Transformation--->  Active Data Base: (Historical data)  

 Dataprofiling ----源数据预处理 

  • Ca - - >  Column Analysis  
  • Pa - - >   primary key Analysis
  • Fa - - >  foreign key Analysis
  • Bl - - >   base line Analysis
  • Cd - - >   cross domain Analysis

Data Quality or cleansing--数据清洗

  • Parsing
  • Cording
  • Standardize
  • Matching
  • Consolidate

Data Transformation--数据转换

 

Active Data Base: (Historical data)  ----历史数据存储

 大概会存30-90天的历史数据

 

 

Datastage stage的分类和使用

 

datastage 技术架构 datastage工具_Data_02

 

 

 

datastage 技术架构 datastage工具_服务器_03

 

 专有名词:

ds engineer 

information tier 信息分层

 

 参考:https://tekslate.com/architecture-data-stage

            

            https://developer.ibm.com/tutorials/perform-advanced-etl-operations-with-datastage/?mhsrc=ibmsearch_a&mhq=datastage