元数据管理系统产品选型分析
1 概述
需要给目前数据仓库适用一套元数据管理系统,目的 减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等
1.1 应用背景
目前数据仓库没有专业的元数据管理系统,部分业务模型使用excel文档维护,分散、协同性不好。没有权限管理,没有报表、指标、数据字典、没有血缘或影响关系分析等复杂功能
1.2 业务目的
减少人为的维护工作量、web页面协同工作(多人统一入口适用),为数据仓库长远高质量发展建设、商业智能分析高效、准确性 提供坚实基础以及后续的数据治理打下基础。
1.3 技术约束
2 方案说明
目前市场上的元数据管理工具大致分为 开源和商业 ,国内以及国外。由于受普遍对元数据管理重视性不高、大多数据仓库体量小以及各行业、企业数据现状复杂不同影响 开源的目前只有pentaho 的metadata editor。
商业的国内有 普元(premiton) metacube 、 石竹软件的metaone 。
国外的有Informatica PowerCenter 附带的 metadata management service 、Informatica enterprise data info、Ascential(已被IBM收购) datastage附带的 Metastage。
国外开源,pentaho厂商的商业智能套件之一
2.1.1 特点说明
国外开源 ,只提供c/s版本客户端,支持多种数据库、 hadoop平台等数据源。支持 cdm(common datawarehouse model)标准通用数据模型 。支持对元数据模型 描述、属性编辑等。可以结合pentaho的其他产品 完成报表设计 展示及olap分析
2.1.2 不足
不支持附件导入等,无web界面展示,相对于单独的第三方元数据管理系统 功能较单一 。
2.2 普元
传统企业级软件基础平台产品产商,国内收费,最新产品 Primeton MetaCube7 ,新增了对大数据生态圈(hadoop 、hbase、spark、sqoop等)的适配采集,全新的html5界面展示 。
2.2.1 特点说明
基于 CWM (公共仓库元模型),独立的第三方元数据管理产品。功能较丰富。
1 全面的元数据模型管理及全面的采集管理包括自动化采集和附件模板导入采集:
Ø 关系数据库适配器 : 采集来自 Oracle、DB2、 Teradata 、 Sybase 、SQLServer等关系型数据库的库表结构等元数据。
Ø 建模工具适配器 : ERWin适配器 ,Powerdesigner适配器
Ø ETL工具 : Datastage,PowerCenter
Ø 前端工具 : Cognos, 采集 Cognos中的二维报表元数据:映射关系
Ø 脚本适配器(Perl,SP) : 对 SP、Perl脚本采用SQL解析的方式进行ETL作业映射关系元数据采集.
Ø Excel适配器 :采集Excel格式文件的元数据(包括:库表数据字典,映射关系,代码,指标等)
2 全面的元数据统一视图查看
3 完善的生命周期管理、版本管理、元数据变动审核管理、权限管理
4 强大的分析功能:
血统分析:跨工具了解数据在系统中流动变化的来源和目的
影响分析:跨工具追踪企业范围的数据变化影响
表的重要程度分析:用于展现表在系统中的系统程度
相关界面展现简要截图:
下面是其官网公布的国家开发银行的数据管理解决方案案列
背景与问题
本着对数据平台的数据质量提升的目的,国家开发银行在2009年8月开始建设数据管理项目。但有些方面仍不完善,其中包括偏于技术方面,业务部门无法使用,使得系统在全行范围内无法推广,在数据标准管理上缺乏管理机制。元数据方面数据比较松散,没有形成一个整体的体系。在系统建设过程中,开行发布了数据管控的六个管理办法,系统配合管理办法建成了部分管理功能,但是管理办法的电子流程管理没有完全在系统中实现。
数据管理系统与国家开发银行当前数据仓库的建设、数据标准咨询等项目有着重要的联系,本期项目中与数据仓库的建设及数据标准咨询的配合也作为实施过程中的一项重要内容。为了提升国家开发银行数据管理效率和服务水平,增强和优化前期系统功能,提升用户体验,同时,依据国家开发银行出台的六个数据管理办法,完善管理流程系统和配合数据标准化落地,加强数据管理系统的推广工作。国家开发银行建设的目标是满足源系统、ODS、数据仓库以及下游部分应用对元数据管理的业务需求,借助元数据分析功能对上游系统发生变更时发现对下游系统的影响进行分析并进行变更同步及变更通知,建立全行的全局数据地图。元数据的实施范围包括源系统、ODS、EDW、集市、业务系统,应用系统(报表)。
使用产品与方案
通过普元元数据管理产品支持源系统、ODS、数据仓库及下游部分应用对元数据的应用需求。增加采集适配器,定时自动的采集元数据保证元数据数据的及时更新;同时保证真是数据关系的建立,推进全行数据地图的建设,深化元数据管理系统的核心功能,强化元数据管理系统对外的接口服务,辅助数据标准的落地实施。为支持运行态元数据的采集,提供以下适配器,PowerCenter采集适配器、Cognos采集适配器和Perl日志采集适配器,支持本期EDW和统一报表平台的运行态元数据管理。
对于元数据,在实施上支持如下元数据的采集:
(1) 数据仓库临时区物理数据模型元数据和ETL转换元数据。
通过临时层表EDW_SDATA_TAB_COL_LIST需要增加EDW的字段,并提供访问EDW_SDATA_TAB_COL_LIST等表的权限。
(2) 数据仓库基础区逻辑数据模型元数据。
通过Erwin导出XML文件获取逻辑模型元数据。
(3) 数据仓库基础区物理数据模型元数据。
通过Excel模板文件pdmTaskDetails.xls采集物理模型元数据
(4) 数据仓库基础区ETL转换元数据。
通过Excel模板文件sdmTaskDetails.xls文件采集ETL转换元数据。
(5) 基础层标准化定义映射。
通过Excel模板文件采集标准化定义映射,模板中需定义信息项LDM映射。
(6) 源业务系统物理模型。
通过直连源业务系统的数据库采集物理模型,需网络连通能访问到数据库,并有访问STAT层的源到目标映射表的权限。
元数据在功能上,支持以下功能:
(1) 支持数据仓库变更工作流程。
(2) 支持采用原模板的导出,方便用户修改数据之后再导入,形成数据的闭环,保证元数据的可传递性及易维护性;分析结果原模板导出,对于影响血统分析的结果支持按原模板导出,便于用户快速锁定相关元数据并导出修改,修改完之后支持导入以更新元数据。
(3) PDM和LDM关联:建立PDM和LDM之间的关系,方便后续的影响血统分析。
(4) 物理模型中文化,支持从设计态的人为整理的EXCEL模型中文名称更新到运行态物理模型中,这样用户在使用运行态元数据时易于理解。
实施效果
♦ 企业级的全面元数据管理,纳入了全行的各类元数据,全面共享元数据,为全行提供了统一的数据字典。
♦ 通过元数据管理系统建立了全行的数据流视图,提供了数据的血统、影响分析,辅助系统的开发运维。
♦ 通过元数据管理系统建立了数据标准和技术元数据的映射,辅助数据标准的落地执行。
♦ 提高采集的自动化程度,确保元数据获取的及时性和准确性。
2.2.2 不足
1 表关联分析、血缘分析等强功能 可能需要结合本地实际情况才能体现出易用和实际效果
2 对开源ETL工具 kettle的技术元数据采集 可能不支持。
3 附件导入时可能需要按照产品方提供的模板,这边需要人工转的话带来新的维护量
2.2.3 案例应用及详细说明
案列:
详细说明(产品白皮书):https://www.jianshu.com/p/51ba8e1c7ecc
2.3 石竹软件
官方产品介绍:MetaOne是石竹软件研发的通用的企业级元数据产品。MetaOne以模型管理为中心,凭借灵活的定制功能及强大的可扩展性,可为企业量身定做各种元数据管理解决方案。
遵守cdm ,独立第三方元数据管理工具
2.3.1 特点说明
1 支持全面的数据源获取 文件、建模工具、数据库、bi工具等
2 web界面查看 维护
3 提供二次开发接口
4 功能截图
最近的系统截图:
上图左侧树形结构为数据库>模型分层目录>业务主题域分类目录
2.3.2 不足
1 对Kettle技术元数据的引入支持
2 后续对大数据平台元数据的自动获取可能不支持
3 附件导入时可能需要按照产品方提供的模板,这边需要人工转的话带来的维护量
2.3.3 简要案列说明及产品介绍
1 元数据实施成功案例——中国银行
2006年6月,石竹软件为中国银行总行实施元数据管理,建设基于MetaOne的元数据管理平台,并根据中国银行实际需要做客户化定制,完成公共信息管理、数据差异分析等应用,提供流程化的元数据管理机制。
系统建成后,将中国银行各业务系统元数据及业务指标、业务数据代码(如利率码、行业代码等)的标准定义纳入MetaOne平台,集中管理,供全辖人员查询使用;系统在指标业务含义、加工逻辑、指标关系之上提供血统分析、影响分析等功能,能展现关键业务指标的全局视图,使业务人员能够客观、正确理解指标定义,增加对指标的信任度;帮助业务人员发现因指标定义和统计方法而引起的问题,提高数据质量。
中行所有业务数据标准定义和业务指标定义都通过元数据管理平台进行发布,未经过本平台发布的数据规则定义和指标定义不作为全行性使用的数据信息,体现业务标准和业务指标的权威性及一致性。通过业务系统元数据及指标、数据标准之间的相互关系,为以后的数据质量、ETL和迁移分析奠定基础。
2 产品说明(较早的版本09年 供参考)
2.4 Informatica PowerCenter&metadata management service
2.4.1 特点说明
1 Informatica PowerCenter 以及其附带产品,需要与PowerCenter较好的集成 ,做元数据管理服务,截图说明如下:
上面discover 数据质量管理 主要针对数据库 .可以设定分析规则,出质量报告
上面是Informatica PowerCenter mm。
2.4.2 不足
1 国外产品,中文支持可能不太好
2 作为Informatica PowerCenter mm ,需要和PowerCenter配合使用即使用其内置模型否则自定义模型 人工量大 ,功能有限,官方支持有限。
3 Informatica PowerCenter mm 不能单独采购,需要采购powercenter高级版
2.5 Informatica eic
去年才发布的新产品。eic专注于编目和管理企业数据资产,最大限度提高数据价值
2.5.1 特点说明
1 清点评估所有数据资产
2 提供了基于机器学习的发现引擎,元数据引擎 在整个企业中查找所有类型数据及其关系
3 全方位视图,语义搜索 。
4 新产品 资料较少
2.5.2 官方代理 文档说明
2.6 Ibm datastage&Metastage
支持公共仓库模型CWM(Common Warehouse Model)标准的ETL工具及其套件
2.6.1 特点说明
1 较全面的元数据导入支持 ,血缘分析 ,影响分析等功能。
2 可能需要和datastage 配套使用
2.6.2 不足
1 附件导入是否支持未知
2 对开源etl工具kettle的支持未知
3 中文支持不太好,资料陈旧有限
4 web版本支持未知
3 方案建议
普源metacube和 石竹软件metaone是全中文的独立三方元数据管理产品 ,比较合适。Informatic eic采用了机器学习方法 是其全新大力发展的产品