来自《一本书讲透数据治理:战略、方法、工具与实践》:
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数
据
户口本中除了有姓名、身份证号、出生日期、住址、民族等信息外,还有家庭关系,如
夫妻关系、父子关系、兄弟关系等。这些信息就是描述一个人的元数据,通过户口本中的元
数据,我们不仅能够了解一个人的基本信息,还能够了解其家庭关系。
示例3:图书馆中的元数据
图书馆都会用一个叫作“图书目录”的文件夹来管理藏书,图书目录包含图书名称、编
号、作者、主题、简介、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数
据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。
示例4:元数据好比字典
字典包含一个字的注音、含义、组词、举例等基本信息及其字体结构、相关引用、出处
等。另外,我们可以通过拼音或偏旁部首查到这个字。所有这些信息都是对这个字的详细描
述,它们就是描述这个字的元数据。
按照不同应用领域或功能,元数据一般大致可分为三类:业务元数据、技术元数据和操作
元数据。
1. 业务元数据
业务元数据描述数据的业务含义、业务规则等。明确业务元数据可以让人们更容易理解和
使用业务元数据。元数据消除了数据二义性,让人们对数据有一致的认知,避免“自说自话”,
进而为数据分析和应用提供支撑。
常见的业务元数据有:
● 业务定义、业务术语解释等;
● 业务指标名称、计算口径、衍生指标等;
● 业务引擎的规则、数据质量检测规则、数据挖掘算法等;
● 数据的安全或敏感级别等。
2. 技术元数据
技术元数据是结构化处理后的数据,方便计算机或数据库对数据进行识别、存储、传输和
交换。技术元数据可以服务于开发人员,让开发人员更加明确数据的存储、结构,从而为应用
开发和系统集成奠定基础。技术元数据也可服务于业务人员,通过元数据厘清数据关系,让业
务人员更快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影
响分析。
常见的技术元数据有:
● 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
● 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
● 字段级血缘关系、SQL脚本信息、ETL信息、接口程序等;
● 调度依赖关系、进度和数据更新频率等。
3. 操作元数据
操作元数据描述数据的操作属性,包括管理部门、管理责任人等。明确管理属性有利于将
数据管理责任落实到部门和个人,是数据安全管理的基础。
常见的操作元数据有:
● 数据所有者、使用者等;
● 数据的访问方式、访问时间、访问限制等;
● 数据访问权限、组和角色等;
● 数据处理作业的结果、系统执行日志等;
● 数据备份、归档人、归档时间等
元数据应用
1)数据资产地图
按数据域对企业数据资源进行全面盘点和分类,并根据元数据字典自动生成企业数据资产
的全景地图。该地图可以告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什
么。数据资产地图支持以拓扑图的形式可视化展示各类元数据和数据处理过程,通过不同层次
的图形展现粒度控制,满足业务上不同应用场景的图形查询和辅助分析需要
2)元数据血缘分析
元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时
可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排
查分析的时间和难度
3) 元数据影响分析
元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时
可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大
限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW
等应用的影响分析。
血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别。
4) 元数据冷热度分析
元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在
于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程
度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。
5. 元数据关联度分析
元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联
度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情
况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的
关联情况等,从而进一步了解该实体的重要程度。