一、前言
前天和一个朋友探讨数据元和元数据的差异问题,发在群里面,群里的小斐豆同学希望更系统的了解,所以就整理了这篇文章,分享给大家;
数据元和元数据这两个概念一般人比较容易混淆,之前我也比较困惑,读了10几篇关于这方面的文章和相关书籍,终于对这两个词有了比较深刻的理解,下面我们看下他们之间的2个共同点和5个差异点。
第1个相同点:相同的三个字,只是顺序不一样
第2个相同点:下面表格,站在数据模型元素初始化方理解,所有项都是数据元的组成部分,但是站在应用方理解,除了值之外,其它的都可以看作是元数据。
中文名称 | 唯一标识 | 英文名称 | 定义 | 对象 | 特性 | 表示 | 类型 | 值 |
姓名 | 001 | person name | 人的姓和名组成的字串. | 人 | 姓名 | 名称 | C(60) | 李四 |
性别代码 | 002 | Persosex | 男性与女性之间的生物区分. | 人 | 性别 | 代码 | N(1) | [1,2,0] |
第1点差异:顺序差异,数据元可以创造数据,而元数据不能,数据元之后才能说元数据
第2点差异:内容差异,数据元可以是数据本身,而元数据只能用来定义和描述已有数据
第3点差异:角度差异,数据元更趋近于初始化模型,而元数据更接近应用
第4点差异:特征差异,数据元不可再分、不冗余,而元数据可以拆分和冗余
第5点差异:作用差异,数据元是一套指导理论,是初始化标准,而元数据主要是帮助人们更好的理解和使用数据。
二、数据元和元数据的定义
数据元( Data Element),也称为数据元素,用一级属性描述定义、标识、值域、数据类型、表示方式的组合,必要时也包括计量单位、字符集等信息; 在一定语境下,通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型。
所建立的数据库中,数据(基本)表的字段名应从数据元集中选取且具有唯一对应关系,因此可理解表的列字段即为数据元;
数据具有原子性,集成性,演绎性,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础, 同时它也为数据交换奠定基础
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性(property)的信息;
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
二、数据元和元数据的分类
2.1 数据元的分类
a. 按数据元的应用范围,分为通用数据元、应用数据元(或称“领域数据元”)和专用数据元。通用数据元是与具体的对象类无关的、可以在多种场合应用的数据元。应用数据元是在特定领域内使用的数据元。应用数据元与通用数据元是相对于一定的应用环境而言的,两者之间并没有本质的区别,应用数据元是被限定的通用数据元,通用数据元是被泛化的应用数据元,随环境的变化彼此可以相互转化。专用数据元是指与对象类完全绑定、只能用来描述该对象类的某个特性的数据元。专用数据元包含了数据元的所有组成部分,是“完整的”数据元。
b. 按数据元值的数据类型,可分为文字型数据元与数值型数据元。例如人的姓名是用文字表示的,属于文字型数据元;人的身高是用数值表示的,属于数值型数据元。
c. 按数据元中数据项的多少,可分为简单数据元和复合数据元。简单数据元由一个单独的数据项组成;复合数据元是由2个及以上的数据项组成的数据元,即由2个以上的数据元组成。组成复合数据元的数据元称为成分数据元。虽然数据元一般被认为是不可再分的数据的基本单元,而复合数据元是由两个以上的数据元组成的,但是在实际应用中复合数据元一般被当作不可分割的整体来使用,所以复合数据元仍然可以看作是数据的基本单元,即数据元。例如数据元“日期时间”是一个复合数据元,表示某一天的某一时刻,它由“日期”和“时间”两个数据元组成。
2.2 元数据的分类
a. 技术元数据
物理元数据描述物理资源的元数据,例如:服务器,计算机机房位置和其他信息。
数据源元数据描述了数据源的元数据,通常包括四种类型的信息:数据源地址(例如IP,PORT等),物理拓扑(例如主备,角色等),权限(例如用户名,密码等)以及库名称,版本,域名等
存储元数据描述对象存储的元数据,通常也是“狭义”的元数据,包括几种主要类型的管理属性(例如创建者,应用系统,业务部门,业务负责人等),生命周期(例如创建时间,DDL时间,版本信息等),存储属性(例如位置,物理大小等),数据特征(例如数据偏斜,平均长度等),使用特征(例如DML,刷新)速率等),数据结构表/分区(例如名称,类型,备注等),列(例如名称,类型,长度,精度等),索引(例如名称,类型,字段等),约束(例如类型,字段等)
计算元数据描述数据计算过程的元数据通常可以分为两种类型的计算:数据提取(ETL)或数据处理(JOB)。每种类型的计算都可以进一步细分控制元数据(例如配置属性,调度策略等)和过程元数据(例如依赖项,执行状态,执行日志等)。
质量元数据是一种描述数据质量的元数据。通常,数据质量是通过定义一系列质量指标来反映的。
成本元数据描述数据存储和计算成本的元数据。计算成本(例如,CPU,MEM等),存储成本(例如,空间,压缩率等)
标准元数据描述了数据标准化内容的元数据。代码管理(例如转换规则,外部接口等)映射管理数据显示(例如样式,规则,语义,单位等)
安全性元数据描述数据安全性内容的元数据。安全级别数据敏感度(例如,是否敏感,脱敏算法等)
共享元数据描述了如何共享数据,例如接口方法,格式和内容。
b.业务元数据
模型元数据数据建模是对业务的描述,可以通过模型更好地理解业务。常见的建模方法包括范式模型,维模型。例如业务线、板块、过程数据域、主题域维度、属性事实、度量市场与应用。
应用元数据指描述了数据应用类的元数据。例如应场景等。
分析元数据是指从数据分析的角度描述业务元数据。例如数据域、主题域产品线、板块、业务过程、业务流程、业务规则等。
c.操作维护元数据
操作元数据包括数据处理日志运营情况数据,调度频度,访问记录等
三、相关基础概念
数据:信息的可再解释的形式化表示,以适用于通信、解释或处理。数据可以由人工或自动的方式加工、处理。
对象类:可以对其界限和含义进行明确的标识, 且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合。
特性:property,一个对象类所有成员所共有的特征。
表示:representation,描述,值域、数据类型的组合,必要时也包括计量单位或字符集。
语境:context一个名称所用于的或所源自的应用环境或规程的描述。
值域:value domain允许值的集合。
数据单元:是网络信息传输的基本单位一般网络连接不允许传送任意大小的数据包,而是采用分组技术将一个数据分成若干个很小的数据包,并给每个小数据包加上一些关于此数据包的属性信息,例如源IP地址、目的IP地址、数据长度等。这样的一个小数据包就叫数据单元。这样一来,每次网络要传送的数据都是规格和封装方式相同的一个“小包裹”,有利于数据传输的标准化,简化了数据传输方式。
四、结语
上面是本人对数据元和元数据的理解,仅供参考和辅助理解,资料来源于网络和自己的总结,如果不同理解,欢迎留言探讨,让我们一起深入刨析基础,我坚信“基础才是王道”,因为当我对某些知识不能深入理解时,我就回过头来重新理解最基础的定义,重新理解和定义自己角度的认知,可能会有意想不到的收获,如果您赞同我的认知,烦请关注我或加我微信,我们一起透彻数据治理基础,持续完善数据治理体系。
公众号后台回复”元数据”,获取我收集的几个来源于网络的关于数据元和元数据文档,希望对您有帮助。