什么是数据仓库

说明:本片文章内容参考于微信公众号“大数据私房菜”里的内容,里面大量的与大数据有关的优质内容。在这里一是给大家分享,二是让自己巩固知识。

1. 数据仓库的概念

数据仓库,英文名称为Data Warehouse,可简写为DW或者DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持的目的而创建的。

2. 数据仓库的特点

2.1面向主题

普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般是按照主题进行划分。主题是对业务数据的一种抽象,是从较高的层次上对信息系统中的数据进行归纳和整理。
面向主题的数据可以划分成两部分:
1.根据原系统业务数据的特点进行主题的抽取;
2.确定每个主题所包含的数据内容。如客户主题、产品主题、财务主题等等。
如客户主题,包含客户基本信息、客户信用信息、客户资源信息等。分析数据仓库主题的时候,一般方法是先确定几个基本的主题,然后再扩大范围,最后精益求精。

2.2 集成性

面向操作型的数据库通常是异构的,并且相互独立,所以无法对信息进行概括和反映信息的本质。而数据仓库中的数据是经过数据的抽取、清洗、切换、加载得到的,所以为了保证数据不存在二义性,必须对数据进行编码统一和必要的总汇,以保证数据仓库中的数据一致性。数据仓库在经历数据集成阶段后,使数据仓库中的数据都遵守统一的编码规则,并且消除了许多冗余的数据。

2.3 稳定性

数据仓库中的数据反映的都是一段历史时期的数据内容,它的主要操作是查询、分析,而不进行一般意义上的更新操作(数据集成前的操作型数据库主要完成的增加、删除、查询和修改),一旦某个数据进入到数据仓库后,一般情况下会被长期保存,直到超过规定的期限后才被清除。所以通常数据仓库需要做的工作是加载、查询和分析,一般不进行任何的修改操作,是为了企业高层人员决策分析使用,所以保证了数据的稳定性。

2.4 反映历史变化

数据仓库不断从操作型数据库或者其它数据源获取变化的数据,从而分析和预测需要的历史数据,这样就可以从这些数据中反映出历史的变化。所以一般数据仓库中的数据表的键码(维度)都含有时间键以表明数据的历史时期信息,然后不断增加新的数据。通过这些历史信息可以对企业的发展历程和趋势做出分析和预测。数据仓库的建设需要大量的业务数据作为积累,并将这些不断加进来的历史信息经过加工和整理,最后提供给决策分析人员,这就是数据仓库建设的根本目的。