数据仓库:2.数据仓库定义、产生、发展_数据

数据仓库的定义

数据仓库(Data Warehouse,DW)是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。

数据仓库能够集中、整合多个来源的大量数据(结构化,半结构化,非结构化)到一个综合数据库中,既数据仓库。借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

数据仓库是用于存储、管理和分析大量数据的数据库系统。它主要面向决策支持,将来自多个数据源的数据整合到一个统一的数据库中,方便企业对数据进行探索、分析和可视化。数据仓库也面向事务处理,在进行数据处理时,确保数据的一致性、完整性和可靠性。

数据仓库相关术语

主题

数据仓库中的主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念。每一个主题基本对应一个宏观的分析领域,例如“销售分析”就是一个分析领域。主题是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。主题是根据分析的要求来确定的,数据仓库中的数据是面向主题进行组织的。例如,一个生产企业的数据仓库所组织的主题可能有产品订货分析和货物发运分析等。

面向主题:产品订货分析,货物发运分析,新产品开发分析。

DM中的数据面向主题进行组织。传统DB中的数据面向应用组织。

主题域

主题域(Subject Area)是数据仓库中涉及的一系列相关主题的集合。每个主题域都涵盖了一个特定的业务领域,如客户、产品、财务等。主题域的划分是数据仓库设计和建设的重要步骤,它不仅影响了数据仓库的功能,还影响了数据仓库的性能。主题概念是在数据仓库中涉及的具体主题,例如,在客户主题域中,我们可以涉及到客户基本信息、客户行为、客户满意度等主题概念。这些主题概念不仅反映了数据仓库的功能,也影响了数据仓库的数据组织方式和数据分析方法。

粒度

数据仓库中数据单元的详细程度和级别。

数据越详细,粒度越小,级别越低,回答查询的种类就越多。(数据堆积,回答综合问题效率低)
数据越综合,粒度越大,级别越高,回答查询的种类就越少。

维度

指人们观察事务的角度,类似于关系表的属性。

DW中常用的维度:时间维(层次:日期、周、月、季、年),客户维,产品维,地区维。

数据立方体

两个或更多个维度来描述或分类的数据。

数据立方体(Data Cube)是一种用于OLAP(联机分析处理)和OLAP操作(如上卷、下钻、切片和切块)的多维数据模型。数据立方体是一种N维结构,可以简单看作是3D集合结构。在数据立方体中,每个单元存储一个聚集值,对应于多维空间中的一个数据点。每个属性都可能存在概念分层,允许在多个抽象层进行数据分析。数据立方体通常用于对大数据进行快速分析和可视化,以便进行决策支持。

数据集市

数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

数据集市是完整数据仓库的一个逻辑子集

设计原则:自顶向下和自底向上相结合的设计思想。

数据仓库的特征

数据仓库在高效分析大量不同的数据,提取数据价值并保留历史记录方面拥有独一无二的强大优势。

面向主题

数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。

集成

数据仓库可在不同来源的不同数据类型之间建立一致性。

相对稳定

进入数据仓库后,数据将保持稳定,不会发生改变。

具有时间特征(反映历史变化)

数据仓库分析着眼于反映历史变化。

数据仓库的产生和发展

  • 简单报表阶段:系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。
  • 数据集市阶段:主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。
  • 数据仓库阶段:主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。

三种主要类型数据仓库(DWH)

  • 企业级数据仓库 (EDW)
  • 运营数据存储(ODS)
  • 数据集市(DM)

优缺点

优点:

支持决策分析:数据仓库为企业的决策分析提供统一、高质量的数据源。

提高数据质量:通过集成多个数据源,数据仓库可消除数据重复和数据不一致的问题。

长期保存数据:数据仓库中的数据是历史的、不可修改的,有利于企业长期保存数据。

支持数据挖掘和统计分析:数据仓库提供全面的数据,支持数据挖掘和统计分析等分析方法。

缺点:

响应速度较慢:由于数据仓库采用批处理方式,不如实时数据处理方式响应速度快。

建设成本高:建立数据仓库需要大量的存储和计算资源,因此建设成本较高。

数据更新问题:数据仓库中的数据通常是批量更新的,因此可能存在数据不一致的问题。

其他知识点

支持OLTP

联机事务处理OLTP(on-line transaction processing):是传统的关系型数据库的主要应用。

支持OLAP

OLAP是Online analytical processing,指联机分析处理。是数仓的主要应用。

HIVE

hive是建立在Hadoop上的数据仓库。