一、引言
1.定义
1.数据集成和互操作描述了数据在存储,应用程序或组织内部(或之间)的数据移动和整合活动。
2.数据集成是将数据整合成物理的或虚拟的一致格式,数据互操作是多个系统之间进行通信的能力
2.基本数据管理职能
1.数据迁移和转换
2.数据整合到数据中心或数据集市
3.将供应商软件包集成到组织应用系统框架中
4.在应用程序与组织之间数据共享
5.跨数据存储库和数据中心分发数据
6.数据归档
7.数据接囗管理
8.获取和接收外部数据
9.结构化和非结构化数据集成
10.提供运营智能化和管理决策支持
3.和其他知识领域的关系
1.数据治理:用于治理转换规则和消息结构
2.数据架构:用于解决方案设计
3.数据安全:无论数据是持久化的、虚拟化,或者是在应用程序和组织之间流动着,确保解决方案对数据进行适当的安全保护
4.元数据:用于跟踪数据的技术清单(持久的、虛拟的和动态的),数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘
5.数据存储和操作:管理解決方案的物理实例化
6.数据建模和设计:用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传输的消息结构
4.业务驱动因素
1.管理数据集成的复杂性及相关成本
2.降低维护管理成本
3.数据集成和互操作的主要目的是为了数据移动进行有效管理
4.数据集成和互操作还支持组织遵守数据处理标准和规则的能力
5.目标
1.及时以数据消费者所需的格式提供数据
2.将数据物理地或虚拟地合并到数据中心
3.通过开发共享模型和接口来降低管理解决方案
的成本和复杂度
4.识别有意义的事件(机会和威胁),自动触发预警动作
5.支持BI、分析、主数据管理、运营效率的提升。
6.原则
1.采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
2.平衡本地数据需求与企业数据需求,包括支撑与维护
3.确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性
二、基本概念
1.ETL
1.抽取 Extract
如果抽取过程在操作性系统(OLTP)上执行,为了避免对操作流程产生负面影响,那么设计时应考虑尽可能少地使用资源
2.转换 Transform
1.格式变化
2.结构变化
3.语义变换
4.消除重复
5.重新排序
3.加载 Load
4.ELT
如果目标系统比源系统具有更强的转换能力,加载和转换可调换顺序。这在大数据环境中是很常见的操作
5.映射
转换的同义词,既是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果。映射定义了要抽取的源数据与抽取数据的识别规则、要加载的目标与要更新的目标行的识别规则以及要应用的任何转换或计算规则。
2.时延(Latency)
从源系统生成数据到目标系统可用该数据的时间差
1.批处理 Batch
- 通常会有明显的延时,为了实现快速处理和低延时可使用微批处理
2.变更数据捕获 Change Data Capture,CDC
- 变更数据捕获是通过增加过滤特定时间范围内的发生变更的数据,来减少传输带宽需求的方法。
3.准实时和事件驱动 Near-real-Time
- 与批处理相比准实时处理具有更低的延迟,但它通常比同步数据集成解决方案要慢一些
4.异步
- 异步数据集成不会阻塞源应用程序继续执行,也不会在任何目标应用程序不可用时导致源应用程序不可用
5.实时,同步 Real-time,Synchronous
6.低延迟或流处理 Low latency or streaming
3.复制 Replication
1.将分析和查询对主事务操作环境性能的影响降至最低
2.复制用于物理上处于分布状态的数据副本之间进行同步
4.归档 Archiving
1.不经常使用的数据移动到对组织成本较低的备用数据结构或存储解决方案中
2.使用存档来存储来自下线应用程序数据,以及长期未使用的生产系统数据,可以提高操作效率
3.监控归档技术非常重要,要确保在技术发生改变时,数据仍然可以被访问。使用新技术却无法读取旧结构或旧格式的存档,这样可能会存在风险,特别是对于那些仍然合法需要的数据。
5.企业消息格式/规范格式 Canonical data Model
规范化数据格式是组织或数据交换团队使用的通用格式,用于标准化数据共享的格式
6.交互模型 Interaction Models
系统之间建立连接以传送数据的方式
1.点到点 Point-to-point
2.中心辐射型 Hub-and-spoke
3.发布与订阅 Publish-Subscribe
7.数据集成和互操作架构
1.应用耦合(Application Coupling):描述两个系统交织的程度,通常松耦合是一种优选的接口设计,数据在系统之间传输不需要等待响应,一个系统不可用时,不会导致另一个系统无法使用
2.编排(Orchestration):描述在一个系统中如何组织和执行多个相关流程。
1.数据库活动日志
2.批量作业日志
3.警报
4.异常日志
5.作业依赖图,包括补救方案,标准回复
6.作业的时钟信息,如依赖作业的定时、期望的作业长度、计算(可用)的窗口时间
3.企业应用集成(EAI):软件模块之间仅通过定义良好的接口调用进行交互。
4.企业服务总线(ESB):充当系统之间的中介,在它们之间传送消息。
5.面向服务的架构(SOA):在独立的软件模块之间定义良好的交互
6.复杂事件处理(Complex Event Processing,CEP):跟踪和分析(处理)有关发生事件的信息流,并从中得出结论的方法。
7.数据联邦(Data Federation):提供访问各个独立数据存储库组合的权限。
8.数据虚拟化(Data Virtualization):使分布式数据库以及多个异构数据存储能够作为单个数据库来访问和查看
9.数据即服务(DaaS):从供应商获得许可并按需由供应商提供数据
10.云化集成(IPaaS):云服务交付的一种系统集成形式,处理数据、流程、SOA和应用集成
8.数据交换标准
数据元素结构的正式规则
数据集成和互操作的核心是抽取,转换,加载这一基本过程
三、活动
1.规划和分析
1.定义数据集成和生命周期需求
2.执行数据探索
数据探索的目标是为了数据集成工作确定潜在的数据来源;数据探索还包括针对数据质量的高级别评估工作,以确定数据是否适合集成计划的目标;数据探索要生成,及完善组织的数据目录
3.记录数据血缘
血缘分析可用于系统变更影响分析
4.剖析数据 Data profiling
数据剖析理解数据的内容和结构,是数据集成成功的关键;剖析的另一个目标是评估数据的质量
5.收集业务规则
1.评估潜在的源数据集和目标数据集的数据
2.管理组织中的数据流
3.监控组织中的操作数据
4.指示何时自动触发事件和警报
5.如主数据管理,业务规则包括匹配规则,合并规则,存活规则和信任规则;数据归档,数据仓库等情况,业务规则还包括数据保留规则
2.设计数据集成解决方案
1.设计数据集成解决方案
1.选择交互模型
- 确定哪个交互模型或组合将满足需求--中心辐射型,点到点或发布订阅