一.定义

关于数据的数据。

---不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身如数据库、数据元素、数据模型,数据表示的概念如业务流程、应用系统、软件代码、技术基础设施,以及数据与概念之间的联系。

二.用处

1.管理和使用数据(资产)-越完善的元数据,越有利挖掘数据中的价值

2.风险管玾-敏感数据标签,让使用者注意隐私保护和数据安全

3.没有元数据,组织就不能将其数据作为资产进行打理!!

三.业务驱动因素

1.通过提供上下文语境和执行数据质量检查提高数据的可信度

2.通过扩展用途增加战略信息的价值

3.通过识别冗余数据和流程提高运营效率

4.防止使用过时或不正确的数据

5.减少数据的研究时间

6.改善数据使用者和IT专业人员之间的沟通

7.创建准确的影响分析,从而降低项目失败的风险

8.通过缩短系统开发生命周期的时间缩短产品上市时间

9.通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响

10.满足监管合规

四.目标

1.确保人们理解和使用数据内容的一致性

2.了解来自组织不同部门的数据之间的相似和差异

3.确保元数据的质量、一致性、及时性和安全

4.提供途径,可以访问元数据

5.推广或强制使用技术元数据标准,以实现数据交换

五.原则

1.组织承诺

高级管理层的支持和资金

2.战略

对齐业务战略

3.企业视角

给企业带来价值

4.潜移默化

积极宣导

5.访问

方便员工使用

6.质量

找到责任人

7.审计

有标准有审计

8.改进

持续反馈改进

六.基本概念

1.元数据与数据

1.元数据也是数据,应用数据管理的方式进行管理
2.一个人的元数据,可能是另一个人的数据
3.组织应定义元数据需求,重点关注元数据能用来做什么和满足这些需求的源数据

2.元数据的类型

通过数据来源而不是使用方式来分类的

1.业务元数据
包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征
2.技术元数据
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间的数据流转过程的信息
3.操作元数据
描述处理和访问数据的细节
4.其他领域类型元数据
1.描述元数据:描述资源并且支持识别和检索,如标题,作者和主题等
2.结构元数据:描述资源及其组成组件之间的关系,如页数,章节等
3.管理元数据:描述管理生命周期的元数据,如版本号,存档日期等

3.ISO/IEC 11179 元数据注册标准

提供了用于定义元数据注册的框架

4.非结构化数据的元数据

1.描述元数据
描述元数据 (Descriptive Metadata)。描述资源并且支持识别和检索,如标题、作者和主题等。
2.结构元数据
结构元数据 (Structural Metadata)。描述资源及其组成组件之间的关系,如页数、章节等
3.管理元数据
管理元数据 (Administrative Metadata)。用于描述管理生命周期的元数据,如版本号、存档日期等。
4.书目元数据
5.记录元数据
6.保存元数据

5.元数据的来源

1.应用程序中元数据存储库
在建模工具、B1工具和其他应用程序中内置元数据存储库。随着组织元数据管理成熟度的提升,希望将不同应用程序中的元数据集成,以便数据使用者可以查看到各种信息。
2.业务术语表
业务视角的元数据来源
3.商务智能工具
商务智能工具生成与商务智能设计相关的各类元数据,包括概述信息、类、对象、衍生信息和

计算的项、过滤器、报表、报表字段、报表展现、报表用户、报表发布频率和报表发布渠道。

4.配置管理工具CMDB
5.数据字典Data Dictionary
6.数据集成工具
7.数据库管理和系统目录
8.数据映射管理工具
9.数据质量工具
10.数据目录
包含了组织内所有数据的系统,数据源和位置的信息
11.事件消息工具
12.建模工具和存储库
13.参考数据库
参考数据可能是元数据的一种
14.服务注册
15.其他元数据存储

6.元数据架构的类型

1.架构层次
1.元数据创建和采集
2.元数据在一个或多个存储库中存储
3.元数据集成
4.元数据交付
5.元数据使用
6.元数据控制和管理
2.类型
1.集中式元数据架构
  • 集中式元数据架构由单一的元数据存储库组成,该存储库包含来自各种不同源的元数据副本
    • 1.优点:
      • 1.因为它独立于源系统,具有高可用性。
      • 2.因为元数据集中在存储库中,具备快速能力。
      • 3.解決了数据库结构问题,使其不受第三方或商业系统特有属性的影响。
      • 4.抽取元数据时可进行转换、自定义或使用其他源系统中的元数据来补充,提高了元数据质量。
    • 2.缺点:
      • 1.必须采用复杂流程确保元数据源头中的更改能够快速同步到存储库中。
      • 2.维护集中式存储库的成本可能很高。
      • 3.元数据的抽取可能需要自定义模块或中间件。
      • 4.验证和维护自定义代码会增加对内部IT人员和软件供应商的要求
2.分布式元数据架构
  • 元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库
    • 1.优点
      • 1.元数据总是尽可能保持最新且有效,因为它是 从其数据源中直接检索的。
      • 2.查询是分布式的,会提高响应和处理的效率。
      • 3.来自专有系统的元数据请求仅限于查询处理 而不需要详细了解专有数据结构,因此最大限 度地减少了实施和维护所需的工作量
      • 4.自动化元数据查询处理的开发可能更简单,只 需要很少的人工干预。
      • 5.减少了批处理,没有元数据复制或同步过程,
    • 2.缺点
      • 1.无法支持用户定义或手动插入的元数据项,因 为没有存储库可以放置这些添加项.。
      • 2.需要通过统一的、标准化的展示方式呈现来自 不同系统的元数据
      • 3.查询功能受源系统可用性的影响。
      • 4.元数据的质量完全取决于源系统
3.混合式元数据架构
  • 混合架构结合了集中式和分布式架构的特性;是最经常采用的元数据管理方案。
4.双向元数据架构
  • 允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。
5.无管理的元数据架构
  • 在没有意识对元数据进行专门管理的情况下,系统间如果需要互操作对方的元数据,需要点对点访向

七.活动

1.定义元数据战略

1.概念
描述组织应如何管理其自身元数据,以及元数据从当前状态到未来状态的实施线路
2.步骤
1.启动元数据战略计划
2.组织关键利益相关方的访谈
3.评估现有的元数据资源和信息架构
4.开发未来的元数据架构
5.制订分阶段的实施计划

2.理解元数据需求

1.内容
需要哪些元数据和哪种详细级别
2.功能需求点
1.更新频次
2.同步情况
3.历史信息
4.访问权限
5.存储结构
6.集成要求
7.运维要求
8.管理要求
9.质量要求
10.安全要求
  • 一些元数据不应公开,因为会泄露某些高度受保密数据的信息

3.定义元数据架构

1.基本能力要求
1.元数据管理系统必须具有从不同数据源采集元数据的能力
2.受控的元数据环境应为最终用户屏蔽元数据的多样性和差异性
3.组织根据具体的需求设计元数据架构:集中式

分布式和混合式

2.基本步骤
1.创建元模型
  • 创建一个元数据存储库的数据模型,也称元模型
2.应用元数据标准
  • 命名约定标准
    • 1.逻辑名称对用户有意义;尽可能使用完整单词;避免不熟悉的缩写:不用分隔符
    • 2.物理名称符合DBMS的最长约定,可使用下划线作为分隔符;
    • 3.命名要减少跨环境变化,不受特定环境影响;名字最后是分类词
3.管理元数据存储
  • 1.控制活动
  • 2.质量控制活动
  • 3.元数据管理活动
  • 4.培训活动
实施控制活动以管理元数据环境,控制活动应受到数据治理过程的监督

4.创建和维护元数据

1.管理原则
1.责任
  • 流程的执行者对元数据的质量负责
2.标准
  • 制定,执行和审查元数据标准,简化集成过程
3.改进
  • 建立反馈机制
2.步骤
1.整合元数据
  • 1.集成过程中从整个企业范围内收集和整合 元数据,包括从企业外部获取到的数据中 的元数据。
  • 2.元数据存储库应将提取的技术元数据与相 关的业务、流程和管理元数据集成在一起
  • 3.元数据整合过程中可能存在一些挑战,需 要诉诸于数据治理流程进行协调解决
2.分发和传递元数据的机制
  • 1.元数据内部网站,提供浏览、搜索、查询、报 告和分析功能。
  • 2.报告、术语表和其他文档。
  • 3.数据仓库、数据集市和B1(商务智能)工具。
  • 4.建模和软件开发工具消息传输和事务。
  • 5.Web服务和应用程序接口 (API)。
  • 6.外部组织接口方案(如供应链解决方案)

5.查询、报告和分析元数据

1.元数据指导如何使用数据资产:在商务智能BI(报表和分析)、 商业决策 (操作型,运营型和战略型)方面使用元数据。
2.元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要

八.工具

1.管理元数据的主要工具是元数据存储库

2.管理工具提供了在集中位置管理元数据的功能

3.元数据管理工具和存储库本身就是一种元数据的数据源

九.方法

1.数据血缘和影响分析

1.发现和记录数据资产的元数据的一个重要意义在于提供了数据如何在系统间转移的信息
2.许多元数据工具中存储着某个环境中数据现况的信息,并提供查看跨系统或应用程序接口的血缘功能。基于程序编码的当前版本的血缘称为"实现态血缘〞。映射规范文档中描述的血缘称为 “设计态血缘”
3.数据血缘创建的局限性在于元数据管理系统的覆盖范国。特定功能的元数据存储库或数据可视化工具在其管理范围内提供数据血缘的信息,若超出管理范围时,将无法提供相关信息。

2.应用于大数据采集的元数据

1.采集
采集时,一起采集元数据,用来识别数据湖中的数据
2.剖析
采集后需要进行剖析,识别出数据域,数据关系,质量问题等
3.打标
采集到敏感数据,应增加元数据标签
4.关联
通过标签,以及标识集群行为的代码关联其他数据

十.实施指南

1.就绪评估/风险评估

1.坚定元数据战略
2.缺失高质量元数据可能的影响
1.因不正确、不完整和不合理的假设或缺乏数据内容的知识导致错误判断
2.暴露敏感,使客户或员工面临风险,影响商业信誉和导致法律纠纷
3.了解数据的领域专家离开了,他们了解的知识也随之带走
3.对元数据相关活动状况进行正式的成熟度评估
1.重要的业务元数据
2.可用的元数据术语表
3.数据血缘
4.数据剖析和数据质量管理过程
5.主数据管理成熟度等

2.组织和文化变革

需要高级管理层的支持和参与

十一.元数据治理

1.过程控制

数据管理团队应负责定义标准和管理元数据的状态变化(通常使用工作流或协作软件),同时负责组织内质量提升活动、培训计划或实际培训活动。

2.元数据解决方案的文档

1.概念
元数据的主目录包括当前作用域中的源和目标
2.指引作用,告知用户能满足其如下需求
1.元数据管理实施状态
2.源和目标元数据存储
3.元数据更新的调度计划信息
4.留存和保持版本
5.内容
6.质量声明或警告
7.记录系统和其他数据源状态
8.相关的工具、架构和人员
9.敏感信息和数据源的移除或脱敏策略

3.元数据标准和指南

为了支持共享信息的最佳使用,需要共享公共元数据,这催生了许多专业领域的标准

4.度量指标

1.元数据存储库完整性
2.元数据管理成熟度
3.专职人员配备
4.元数据使用情况
5.业务术语活动
6.主数据服务数据遵从性
7.元数据文档质量
8.元数据存储库可用性
正常运行时间、处理时间

随着组织收集和存储数据的能力的提升,元数据在数据管理中的作用变得越来越重要。组织要实现数据驱动必须先实现元数据驱动。

版权声明:未经许可,不得抄袭。转载请此处留言或公众号后台沟通。更多关于CDMP认证和数据治理的交流请关注公众号(Data is King),公众号回复‘dmbok思维导图’ 可获取思维导图版知识点总结。