文章目录

  • 数据的分层
  • 一、层级划分
  • 一、数据运营层:ODS(Operational Data Store)
  • 二、数据仓库层:DW(Data Warehouse)
  • 三、数据应用层:APP(Application)
  • 四、数据的存储


数据的分层

一、层级划分

ODS:存放原始数据
	DW:存放数仓中间层数据
	APP:面向业务定制的应用数据

数据仓库五层架构包括 数据仓库层级划分_数据仓库五层架构包括

一、数据运营层:ODS(Operational Data Store)

  • 面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。
  • 一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。

二、数据仓库层:DW(Data Warehouse)

  • 数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中获得的数据按照主题建立各种数据模型。DW层又细分为 DWD(Data Warehouse Detail)层、DWM(Data WareHouse Middle)层和DWS(Data WareHouse Servce)层。
  • 1.数据明细层:DWD(Data Warehouse Detail)
    该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证。同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。

另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性,后文会举例说明。

  • 2.数据中间层:DWM(Data WareHouse Middle)
    该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。

直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。

  • 3.数据服务层:DWS(Data WareHouse Servce)
    又称数据集市或宽表。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,
因此一般也会称该层的表为宽表。
	在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度
太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽
表。由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将所有的数据在放在DWS亦可。

三、数据应用层:APP(Application)

  • 在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据,一般就放在这里。

四、数据的存储

数据仓库五层架构包括 数据仓库层级划分_数据_02