这次主要回答以下几个问题

这次的内容会参考书籍《数据仓库》第四版,William H. Inmon中文翻译版

1. 什么是数据仓库

数据仓库是一种面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。

数据仓库是为企业所有级别的决策制定过程提供的所有类型数据的战略集合。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。


数据仓库是根据源自操作型环境中的应用数据建立起来的。把这些数据转到数据仓库时要进行集成。

数据仓库是一种体系结构而不是一种技术



2. 为什么要用数据仓库

"为什么所有这些数据要积累起来?真有人用这些数据吗?

2.1 正是有了数据仓库,获取信息的代价在急剧的降低。分析使用数据仓库的原因,很重要的一点就是从成本的角度来分析,因为公司使用数据仓库的意义是为了赚钱,如果不能产生利润或者节约成本,那么为什么要用数据仓库呢。

从成本上来说呢,有两种,一种是宏观上来说的,一种是从微观上说的

宏观上说,自从我们建立了数据仓库之后,我们的股价涨了多少多少,但是有一个问题,股价的上涨可能是多种原因,可能数据仓库只是其中一种而已

微观上讲,同样的两家公司,每家公司都有类似的业务需求和数据分布,唯一不同的是,其中一家公司是有数据仓库的,在正常的情况下,没有数据仓库的公司想要分析历史数据的话,

需要经历以下流程:

找到历史数据

传递传统数据技术:老的技术

集成数据:多数据源集成,数据定义的校正

筹备数据:筹备存储区

创建报告


而有数据仓库的呢,只需要从数据仓库中查找数据就可以了,时间短,成本低。但是如果是算成本的话,还需要考虑建立数据仓库的成本

建立数据仓库的过程

找到遗留数据

通过遗留环境传输

集成数据

筹备数据

这个过程和一个查询很类似,如果仅仅只有一次查询,两者的成本类似,但是当部门多起来,需要查询的东西多起来的时候,每次没有数据仓库的都需要做这样一件事情,成本增长很快的,而数据仓库的话,可以极大的缩减成本。



3. 怎么建立数据仓库

数据仓库是在一种螺旋式开发方法学的指导下开发的。与传统的系统开发是不一样的,在传统的瀑布模型下,首先分析需求,之后设计和开发,之后测试。而建立数据仓库是完全相反的,首先是由数据开始的,得到数据后,对数据进行集成,然后检验数据存在什么偏差。之后针对数据写程序,分析程序的执行金结果,之后,系统的需求才能被理解。


4. 如何使用数据仓库

首先,谈谈数据仓库的使用频率问题,基本上是一种二元的模式,要不利用全部硬件,要么根本不用硬件。这样的话,云计算平台就有了作用,当需要时,向云平台租借计算能力,这个要付钱的,当不需要的时候,就不用付钱,像用电一样使用计算能力和存储能力,科技的发展真的很快。