数据仓库

  • 1.数据仓库
  • 2.数据仓库的主要特征
  • 2.1 面向主题
  • 2.2 集成性
  • 2.3 非易失性
  • 2.4 时变性
  • 3.数据仓库与数据库的区别
  • 4.数据仓库分层架构
  • 4.1 数据仓库一般分为三层:
  • 4.2 数据仓库分层的目的
  • 5.数据仓库元数据管理


1.数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用。

2.数据仓库的主要特征

数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant )数据集合,用以支持管理决策。

2.1 面向主题

数据分析有一定的范围,需要选取一定的主题进行分析。

2.2 集成性

集成各个其他方面关联的一些数据,比如分析订单购买人的情况,就涉及到牵连用户信息的情况。

2.3 非易失性

数据分析主要是分析过去已经发生的数据,分析的东西都是既成就的事实,不会再改变了。

2.4 时变性

随着时间的发展,数据的形态也在发生变化,数据分析的手段也要相应的进行改变。

3.数据仓库与数据库的区别

数据库:数据库主要的功能就是用来做事务处理的,主要负责频繁的增删改查。
数据仓库:主要职责就是做数据的分析,面向分析的。

4.数据仓库分层架构

4.1 数据仓库一般分为三层:

第一层:源数据层 又叫ODS 我们产生数据的地方。
第二层:数据仓库层 又叫DW 主要集中存储数据,面向主题进行分析。
第三步:数据应用层 又叫app层 主要用于展示我们分析之后的数据结果。

数据在这三层之间的一个流动,称之为ETL的过程。
ETL:extrat(抽取) transform(转换) load(加载)

4.2 数据仓库分层的目的

每一层职责清晰

5.数据仓库元数据管理

元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。