python 元数据管理 元数据管理 工具_数据仓库


在数据仓库系列之元数据管理中我们了解到元数据可以被称为是数据仓库系统的“灵魂”,正是元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;目前提供的仅仅是对局部元数据的管理。

一、元数据相关工具

当前市场上与元数据有关的主要工具大致可以分为五类:

1. 数据抽取工具;

将业务系统中的数据抽取、转换、集成到数据仓库中,如中软数据的ETL产品SEDWA、Pentaho的开源ETL产品Kettlet等。这些工具都提供了技术元数据的支持。

2. 前端展现工具:

系统可以进行OLAP分析、报表和商业智能工具等,如Cognos的PowerPlay、以及国内厂商帆软的FineBI/FineReport,中软数据的SoftEasyBI等。它们通过把关系表映射成与业务相关的事实表和维度表来支持多维业务,其中中软数据的SoftEasyBI和自家ETL产品SEDWA可以全面支持微软分析服务,包含SSAS服务和表格模型,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。

3. 建模工具:

为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。

4. 元数据存储工具:

元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一种工具被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage、Sybase的WCC和SEDWA等。

5.元数据管理工具:

目前国内的元数据管理系统有三类。

第一类:IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的MetaStage,CA的DecisionBase都是如此;

第二类:DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具;

第三类:普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、石竹MetaOne等。

专门的元数据管理工具,对自家产品兼容较好,一旦涉及跨系统管理,就不尽如人意了。

二、元数据管理标准


python 元数据管理 元数据管理 工具_python 元数据管理_02


了解完当前市场上于元数据有关的主要工具后,我们接下来看元数据管理标准。俗话说没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG两个组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理提供了奠基石。

通过查看元数据的发展历史不难看出,元数据管理主要有两种方法:

对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。

目前OMG家的CWM(Common Warehouse MetaModel)标准已成为元数据管理界的统一标准:

OMG是一个拥有500多会员的国际标准化组织,著名的CORBA标准即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁布了CWM 1.0标准。CWM模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:

UML:它对CWM模型进行建模。

MOF(元对象设施): 1、它是 OMG 元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口 2、为构造模型和元模型提供了可扩展的框架,并提供了存取元数据的程序接口

XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。增强CWM的通用性

OMG元数据知识库体系结构如下图所示。


python 元数据管理 元数据管理 工具_python 元数据管理_03


CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:

CWM元模型(Metamodel):描述数据仓库系统的模型;

CWM XML:CWM元模型的XML表示;

CWM DTD:DW/BI共享元数据的交换格式

CWM IDL:DW/BI共享元数据的应用程序访问接口(API)