数据仓库介绍
数据中台以其较大的价值带宽,可以快速精准的让数据直接赋能企业众多的业务,并为数据提供一个统一化的管理,打破数据孤岛,追溯数据血缘,实现自助化及数据高复用度的效果。数据仓库作为数据中台的重要组成,为了让其更好的服务于数据中台,高效的实现数据价值,特提出数据仓库结构设计模型及开发规范。
数仓建设的核心思想:从设计、开发、部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。因此数仓建设应主要关注数仓结构模型的设计和开发过程的规范。
第2章 数仓结构设计模型
分层结构模型
2.1.1 ODS(Operation Data Store)数据存储层
整体建设思路:
数据存储层主要是对接数据源,接入数据,做多数据源的整合,落地到hive表,保持数据原貌不做任何修改,起到备份数据和屏蔽底层影响的作用。其次在数据量大的情况下考虑采用压缩,减少磁盘存储空间;以及创建分区表,防止后续的全表扫描;将数据表映射到HBase中,提升查询效率等。
2.1.2 DWD(Data Warehouse Detail)数据明细层
整体建设思路:
数据明细层首先需要通过SQL进行数据清洗、敏感字段脱敏等,其次需根据业务构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。维度建模一般按照以下四个步骤:
(1) 不同项目根据需求选择择业务过程,通常一条业务对应一张事实表
(2) 确定粒度,尽可能采用最小粒度。
(3) 根据确立好的指标体系确定维度,维度表的设计可根据维度建模中的星型模型原则进行维度退化。
(4) 根据业务过程确定事实,事实表的设计可适当进行维度退化,进行宽表化处理。
2.1.3 DWS(Data Warehouse Service)数据服务层
整体建设思路:
数据服务层主要是建设多维明细的轻度汇总宽表,以业务需求为驱动,划分主题,以维度为基准关联事实表。轻度汇总宽表服务于日报类的需求指标及DWT层的分析。
2.1.4 DWT(Data Warehouse Topic)数据主题层
整体建设思路:
数据主题层和数据服务层类似,也是从维度出发,站在维度的角度对事实的度量进行聚合,形成的宽表可用于不同主题的周报,旬报,月报类需求指标。
2.1.5 ADS(Data Warehouse Store)数据结果层
整体建设思路:
数据应用层,用于存放数仓分析结果,对各应用场景进行需求分析、支撑多维分析应用。