元数据管理作为企业数据治理的基础工作,贯穿数据产生、加工和使用的全生命周期,是有效管理和使用数据的基础和前提,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。本文从企业数据应用挑战出发,针对元数据管理发起“灵魂”三问——元数据是什么,有什么用,又该怎么管?

01 企业数据应用挑战

企业在日常经营管理过程中会产生大量的数据,为数据驱动的企业经营管理决策奠定了良好基础,但真正在数据应用时却往往会陷入数据沼泽中,出现数据找不到、读不懂、不可信等问题。

数据找不到。数据分散在不同IT系统和线下文档中,因为缺乏高效的数据搜索工具,业务不知道需要的数据在哪里。

数据读不懂。面对复杂的数据存储结构,因为缺乏对每个数据表、字段的业务含义注释,业务读不懂IT系统中的数据。

数据不可信。数据从产生到消费链路复杂,因为缺乏对数据的全链路追踪,不知道数据来自哪里,都经过了哪些加工,业务无法追溯数据问题。

以上问题主要原因是业务与IT以及业务与业务之间缺乏统一的语言,以及基于统一数据语言的数据搜索和数据追溯能力,即企业统一元数据管理能力。

02 元数据是什么?

何为元数据?

元数据最常见的定义是“关于数据的数据”,非常简单却也不容易理解(哈哈,只能说懂的都懂),所以简单举个栗子:

元数据就是数据的字典或者说明书,比如公司个人档案管理系统数据库中的“180”这一数值单独看我们并不知道是什么意思,但是如果我们赋予了它所属对象“张三”,描述内容“身高”,计量单位“厘米”等信息之后,我们就明白这条数值代表的含义是“张三身高180cm”,则所属对象“张三”,描述内容“身高”,计量单位“厘米”就是180的元数据信息。

元数据分类

元数据贯穿数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、大数据平台元数据、应用服务层元数据等。根据元数据用途及针对使用角色的不同,通常我们把元数据分为3大类:业务元数据、技术元数据和操作元数据(注:根据DAMA正宗元数据分类没有管理元数据一说)。

元数据管理 试用demo 元数据管理应用_元数据管理 试用demo

业务元数据主要是对数据中业务语义的描述,包括业务规则、业务术语、统计口径、信息分类等,是用户访问数据时了解业务含义的途径。

技术元数据主要用来描述数据的技术细节和处理规则,包括比如库表结构、ETL规则等,是技术人员进行数据开发时使用的数据信息。

操作元数据主要描述了数据处理和访问的细节,包括访问记录、调度异常处理等。

03 元数据有什么用?

地图指引,自助使用

通过元数据采集对企业数据资源进行全面梳理,实现企业隐性数据显性化,并提供良好的元数据查询管理视图,降低“找数据”的沟通成本,可使业务人员独立准确地定位和使用数据。

统一语言,高效沟通

通过元数据管理统一数据业务和技术语言,可以有效帮助技术人员和业务人员管理和使用数据,消除数据歧义,提升工作效率。

追根溯源,精准定位

通过元数据血缘分析,快速定位数据来源和加工处理过程。当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,帮助数据分析人员精准定位数据问题,减少分析的时间和难度。

流向追踪,迅速响应

通过元数据影响分析可以对数据流向进行追踪,当对系统进行升级改造时可以分析依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,并及时进行相应调整,避免问题的发生。

04 元数据管理平台建设

元数据管理通过对各类数据资源元数据信息的自动、手动采集,进行元数据信息的统一维护管理,并支持对元数据的查询以及相关血缘分析、影响分析和数据地图等元数据分析能力,同时通过统一的元数据访问接口进行元数据访问控制,从而更加高效、便捷的使用数据资产。

元数据管理 试用demo 元数据管理应用_元数据管理 试用demo_02

元数据获取

元数据获取是指从数据平台、业务数据库、报表工具等采集和解析数据源元数据、数据处理加工过程元数据、数据仓库元数据、数据应用层元数据的过程,包括自动获取和手工获取两种方式。其中,自动获取提供多种数据源的采集适配器,根据定时调度任务对元数据信息进行定时采集,手动获取是对自动获取元数据的补充。

同时,元数据采集管理对采集器状态、数据源参数、采集任务进行配置和维护,并提供针对采集任务的监控告警能力,及时跟踪采集任务执行情况。

元数据存储

元数据存储层定义了元数据存储所遵循的元模型,规范从获取层得到的各类元数据的属性要求和存储格式要求,包括业务元数据、技术元数据和操作元数据。为支持各种元数据,以及元数据之间关系的存储,元数据存储需要灵活、可扩展的架构支撑,另外,能够实时更新存储也是很重要的一点。

元数据变更管理

通过元数据变更管理能掌握元数据的变更历史轨迹,实现对元数据变更有效监控,当上游系统的数据模型发生变更时,给下游系统提供预警,实现对变更的协同处理,有效降低运维风险。

元数据版本管理

可以对元数据的关键变更进行版本发布,当系统检测到元数据发生变更后,用户可以在当前元数据的基础上再发布一个版本,实现关键元数据变更的管理。

元数据维护

提供对元数据的增加、删除和修改等基本操作,并维护业务元数据分类、业务标签等业务元数据信息,同时建立业务标签与技术元数据的关联,实现业务元数据与技术元数据的统一管理。

元数据查询

元数据查询是指对元数据库中的元数据基本信息进行查询的功能,元数据管理平台提供树形方式来统一展示元数据信息,层级结构清晰,用户可以直接通过目录树进行元数据信息检索,同时提供自定义检索条件进行查询。

元模型管理

元模型管理需符合 MOF 规范,支持XMI格式的元模型导入和导出,内置各类常见元模型,并支持用户自定义扩展,以满足客户化元数据的需求。元模型管理对元模型的基本信息、属性、父子关系、依赖关系、组合关系的增删改查操作,同时通过元模型发布功能,将元模型的设计和运用隔离开,元模型只有在发布之后才会生效,使用户在设计完成发布之前,不会影响到元数据的使用。

数据地图

对数据的流转分布关系进行可视化展现,通过不同层次的图形展现粒度控制,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

数据血缘分析

血缘分析是建立在元数据整合的基础上,记录数据治理过程中的血缘关系,基于这些血缘关系信息,可以往回追溯其数据处理过程,并通过图形化的方式展示数据从哪里来,经历了哪些加工。数据血缘分析可以提高数据应用的可信度,为数据质量问题的追溯提供了技术上的保障。

元数据管理 试用demo 元数据管理应用_数据_03

关联度分析

关联度分析从关系数量的角度对指定数据进行分析,明确该数据和其它数据的关系,以及它们的关系是怎样建立的。关联度分析体现该数据在系统中依赖程度的高低,从一定的角度可以反映出该数据的重要程度。

影响分析

影响分析帮助用户迅速了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响,以便更有效的评估变化该元数据带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用。

元数据管理 试用demo 元数据管理应用_元数据管理 试用demo_04

元数据对比分析

可以对同类型元数据之间属性值的差异进行对比分析,方便用户识别相似元数据之间的存在的微小差距。

冷热度分析

对数据的使用情况进行分析,明确哪些数据是企业常用数据,哪些数据属于僵死数据,让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据。

统一元数据接口服务

建立元数据查询、访问、分析的统一接口规范,通过统一元数据服务接口对外提供元数据服务。

05 元数据管理实施过程

元数据管理的实施步骤分为以下四个阶段:

规划设计阶段

在规划设计阶段主要是对企业元数据管理驱动力、存在的问题达成内部共识,制定企业元数据管理目标、架构和实施规划。

业务分析阶段

通过收集企业元数据管理需求,明确元数据管理环境、元数据管理范围和优先级,建立元数据标准,制定相关元模型。

实施交付阶段

搭建元数据管理平台,从业务系统、数据平台等数据源获取元数据,对元数据进行转换写入到元数据存储库中,并将元数据存储库中的元数据通过统一元数据服务接口分发到最终用户和其它需要使用元数据的应用或工具中。

运维管理阶段

对元数据的日常运维管理是保证元数据持续优化的基础,因此需要建立元数据管理相关组织、制度、流程,对元数据的增加、删除、修改等操作进行管理,实现对元数据全生命周期管理,并通过元数据运营分析确保元数据完整、准确。

03 结语

元数据管理是企业数据治理的重要抓手,做好元数据管理就可以解决数据找不到、读不懂、不可信的问题,通过元数据管理可以让数据使用者了解企业都有什么数据,分布在哪里,数据的业务含义、口径、颗粒度,如何获取需要的数据,并在数据使用过程中快速进行问题定位分析,真正实现数据的可见、可懂、可用。