元数据
我们在操作数据仓库时,操作的都是元数据,而元数据分为技术元数据和业务元数据。

技术元数据:指数据仓库开发、管理、维护相关的数据,描述了数据的原信息,转换描述、数据映射、访问权限等;
  业务元数据:为管理层和业务分析人员服务,从业务的角度描述数据,包括行业术语、数据的可用性、数据的意义等;

元数据的存储常用两种,一种是以数据集为基础,每一个数据集有对应的元数据文件,每一个元数据文件对应数据集的元数据内容;另一种是以数据库为基础,由若干项组成,每一项表示元数据的一个元素。

什么是数据模型
数据模型是数据关系的一种映射,就是将业务之间的关系,用模型图形化展示出来,在设计数据仓库模型和架构的时候,我们需要懂具体的技术,也需要了解行业的知识和经验来帮助我们对业务进行抽象、处理,进而生成各阶段的模型。

对数据仓库建模的好处
模型可以很好的帮我们分离出底层技术的实现和上层业务的展现,更清晰的看到数据之间内在的关联关系,从而建立起全方位的数据视角,并消灭信息孤岛和数据差异化问题,保证数据的一致性。

维度、度量、指标的含义

维度:即数据观察的角度,从什么角度分析问题(指标)称为维度,比如:2019年北京地区华为手机的销售量,销售量就是我们要去看的一个指标,维度就是时间维度,地区维度和产品维度。
  
  度量:事实表和维度交叉汇聚的点,度量和维度构成OLAP的主要概念,这里面对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准,一个度量字段肯定是统一单位,例如元、户数。如果一个度量字段,其中的度量值可能是欧元又有可能是美元,那这个度量可没法汇总。是在统一计量单位下,对不同维度的描述。
  
  指标:就是我们具体要分析的对象、分析的数据,比如销售收入、销售毛利、采购成本、人均产出等数值类型的就是指标。

事实表和维度表

事实表:存储有事实记录的表,如系统的日志、销售记录、用户访问日志等信息,事实表的纪录是动态增长的,所以体积大于维度表。
  例:用户访问日志(事实表):用户名、url、时间…
  
  维度表:是与事实表相对应的表,这个表保存了维度的属性值,可以跟事实表做关联,相当于是将事实表中经常重复的数据抽取、规范出来用一张表管理,常见的有日期(日、周、月、季度等属性)、地区表等,所以维度表的变化通常不会太大。

数据模型的建立过程
业务模型➡️领域模型➡️逻辑模型➡️物理模型

业务模型:业务分解和程序化,确定好业务边界和业务流程,如订单、支付都是一个独立的业务模块。
  领域模型:业务的抽象、分组,整理分组之间的关联,比如用户购物的业务,抽成一个更大的模型,这个模型一般相对于行业。
  逻辑模型:领域模型中的业务概念实体化,并考虑实体的具体属性及实体与实体之间的关系,比如订单(订单号、付款人…)和支付(金额、支付时间…)的关系。
  物理模型:解决实际应用的落地开发、上线及性能等一系列技术问题。