数据仓库

1、概述

    1.1、什么情况下使用数据仓库

            各个业务系统产生的是原始的业务数据,当企业业务逐渐丰富起来之后,业务数据也会随之增大,针对已经发生过的数据,在业务层面有需求:就是针对业务数据的分析,通常这时候有两种技术处理方案:

            (1)针对业务规模、数据规模比较小的情况下,直接在原有的系统中进行处理(统计),这样体现在客户那里最直观的就是一些各种角度的统计报表这是一种比较小规模数据、业务的处理方式

            (2)针对业务比较复杂,数据量比较大并且统计维度比较多的时候,就会考虑采用一种新的模型来处理,那就是数据仓库。将各种业务数据进行抽取、清洗、汇总、保存,形成结果独立各个业务系统保存,这一系列的的数据处理过程就形成了数据仓库,为后期的数据分析挖掘提供数据基础

    1.2、什么是数据仓库

            简单里讲,数据仓库只是一个概念而已,在这个概念里讲述的是如下的内容:

            (1)整合不同的业务数据源:这个数据源可以是一切数据的提供形式(数据库、文件、字节流等等)

            (2)针对不同的数据源(业务数据),采用不同的数据抽取方式、清洗方式

            (3)将不同来源的数据进行统一、汇总

            (4)将步骤3中的结果进行保存

    1.3、数据仓库有些什么特征

            (1)数据仓库的数据时面向主题的。因为数据仓库的数据时提供给分析决策作为依据的,在业务的层面上需要针对一个主题进行分析。

            (2)数据仓库的数据时集成性的。从如下的方面进行理解:

                    a)数据仓库的数据来源于多个数据源,是多种数据的集成结果

                    b)数据仓库的数据是为分析提供依据的,是汇总的数据,也就是集成的数据

            (3)数据仓库的数据还有一个基本的特性就是:时间特性。数据仓库的数据随着时间的推移,在不断的增加新的内容

            (4)数据仓库的数据具有相对稳定性。这种相对稳定指的是:通常进入到数据仓库中的数据,之后只会进行查询、二不会进行修改

            (5)数据仓库具有数据量大的特性

    1.4、数据仓库的基本结构

数据仓库读书笔记--概念篇_数据仓库

 

 

 

2、数据仓库相关的概念

    2.1、主题

        在数据仓库中,“主题”是指业务方从宏观方面的分析领域。比如:产品订单分析。在数据仓库建设中,主题是来自业务方的需求,作为技术支撑的分析、开发人员而言,就需要将这种主题在技术层面进行转换,具体的就是分析主题涉及到的数据内容,最终在数据仓库中找到与之对应的实体表。

        每个主题在数据仓库中都是由一组关系表实现的,那么“主题”就更像是一个概念了,同时这个概念有自身的特点:

            (1)独立性:主题域可以与其他主题域有交叉的部分,但是他必须有独特的内涵,即要求有明确的界限,规定某项数据是否属于该主题

。         (2)完备性:要求任何一个与某主题相关的分析要求,都应该能在这一主题中找到该分析处理所要求的一切内容

    2.2、粒度

        在数据仓库中指的是数据单元的详细程度和级别。数据越详细,粒度就越小,级别就越低;数据综合度越高,粒度就越大,级别也就越高。在数据仓库中粒度的大小可以直接影响数据仓库能够回答询问的种类。粒度越小回答询问的能力就越强,反之就越小。从另外一个方面将,粒度越小的话,就意味着数据仓库需要装载更多的数据,数据仓库本身的压力也会增大

    2.3、维度

        维是指人们观察事物的角度。在数据仓库中常见的维有:客户维、时间维、产品维、地区维。

        时间维(日期、周、月、季度、年、时间段上分为:黄金时间与非黄金时间)

        地区维(城市、地区、国家)

    2.4、数据立方体

        指的是由两个或更多个维来描述或分类的数据。数据仓库的主要操作对象时多维数据,因此在数据仓库的设计中,应采用多维数据建模技术,以使用户能更好的理解企业的数据信息。

    2.5、数据集市

        数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的。数据集市一般在一个业务部门建立,满足其分析决策的需要,可以将其理解为“部门级数据仓库”(各数据集市都应该是数据仓库的有机组成部分,且各数据集市间应协调一致,满足整个企业分析决策的需要)

        数据集市在设计上有一些原则:

        (1)在数据仓库内,所有的数据集市必须有统一一致的维定义

        (2)在数据仓库内,所有的数据集市必须有统一一致的业务事实