漫谈数据仓库之维度建模

转载

kymdidicom 2021-07-20 15:18:13

文章标签 数据仓库数据库大数据 python java 文章分类 数据仓库大数据

维度建模的基本概念

维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法。

它本身属于一种关系建模方法，但和之前在操作型数据库中介绍的关系建模方法相比增加了两个概念：

1、维度表

表示对分析主题所属类型的描述。比如”昨天早上张三在京东花费200元购买了一个皮包”。那么以购买为主题进行分析，可从这段信息中提取三个维度：时间维度(昨天早上)，地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定，且数据量小。

2、事实表

表示对分析主题的度量。比如上面那个例子中，200元就是事实信息。事实表包含了与各维度表相关联的外码，并通过JOIN方式与维度表关联。事实表的度量通常是数值类型，且记录数会不断增加，表规模迅速增长。

维度建模的三种模式

1、星形模式

星形模式(Star Schema)是最常用的维度建模方式，下图展示了使用星形模式进行维度建模的关系结构：

漫谈数据仓库之维度建模_大数据_02

可以看出，星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：

维表只和事实表关联，维表之间没有关联；

每个维表的主码为单列，且该主码放置在事实表中，作为两边连接的外码；

以事实表为核心，维表围绕核心呈星形分布；

2、雪花模式

雪花模式(Snowflake Schema)是对星形模式的扩展，每个维表可继续向外连接多个子维表。下图为使用雪花模式进行维度建模的关系结构：

漫谈数据仓库之维度建模_数据库_03

星形模式中的维表相对雪花模式来说要大，而且不满足规范化设计。雪花模型相当于将星形模式的大维表拆分成小维表，满足了规范化设计。然而这种模式在实际应用中很少见，因为这样做会导致开发难度增大，而数据冗余问题在数据仓库里并不严重。

3、星座模式

星座模式(Fact Constellations Schema)也是星型模式的扩展。基于这种思想就有了星座模式：

漫谈数据仓库之维度建模_大数据_04

前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模式。

4、三种模式对比

归纳一下，星形模式/雪花模式/星座模式的关系如下图所示：

漫谈数据仓库之维度建模_数据库_05

雪花模式是将星型模式的维表进一步划分，使各维表均满足规范化设计。而星座模式则是允许星形模式中出现多个事实表。本文后面部分将具体讲到这几种模式的使用，请读者结合实例体会。

实例：零售公司销售主题的维度建模

在进行维度建模前，首先要了解用户需求。而笔者在数据库系列的第一篇就讲过，ER建模是当前收集和可视化需求的最佳技术。因此假定和某零售公司进行多次需求PK后，得到以下ER图：

漫谈数据仓库之维度建模_java_06

随后可利用建模工具将ER图直接映射到关系图：

漫谈数据仓库之维度建模_大数据_07

需求搜集完毕后，便可进行维度建模了。本例采用星形模型维度建模。但不论采取何种模式，维度建模的关键在于明确下面四个问题：

1、哪些维度对主题分析有用？

本例中，根据产品(PRODUCT)、顾客(CUSTOMER)、商店(STORE)、日期(DATE)对销售额进行分析是非常有帮助的；

2、如何使用现有数据生成维表？

维度PRODUCT可由关系PRODUCT，关系VENDOR，关系CATEGORY连接得到；

维度CUSTOMER和关系CUSTOMER相同；

维度STORE可由关系STROE和关系REGION连接得到；

维度CALENDAR由关系SALESTRANSACTION中的TDate列分离得到；

3、用什么指标来”度量”主题？

本例的主题是销售，而销量和销售额这两个指标最能直观反映销售情况；

4、如何使用现有数据生成事实表？

销量和销售额信息可以由关系SALESTRANSACTION和关系SOLDVIA，关系PRODUCT连接得到；

明确这四个问题后，便能轻松完成维度建模：

漫谈数据仓库之维度建模_数据仓库_08

细心的读者会发现三个问题：1. 维表不满足规范化设计(不满足3NF)；2. 事实表也不满足规范化设计(1NF都不满足)；3. 维度建模中各维度的主码由***ID变成***Key；

对于前两个问题，由于当前建模环境是数据仓库，而没有更新操作，所以不需要严格做规范化设计来消除冗余避免更新异常。

因此虽然可以以雪花模型进行维度建模，如下所示：

漫谈数据仓库之维度建模_数据库_09

但这样会加大查询人员负担：每次查询都涉及到太多表了。因此在实际应用中，雪花模型仅是一种理论上的模型。星座模型则出现在”维度建模数据仓库”中，本文后面将会讲到。

对于第三个问题，***Key这样的字段被称为代理码(surrogate key)，它是一个通过自动分配整数生成的主码，没有任何其他意义。使用它主要是为了能够处理”缓慢变化的维度”，本文后面会仔细分析这个问题，这里不纠结。

数据仓库建模体系之规范化数据仓库

所谓”数据仓库建模体系”，指的是数据仓库从无到有的一整套建模方法。最常见的三种数据仓库建模体系分别为：规范化数据仓库，维度建模数据仓库，独立数据集市。很多书将它们称为”数据仓库建模方法”，但笔者认为数据仓库建模体系更能准确表达意思，请允许我自作主张一次吧：）。下面首先来介绍规范化数据仓库。

规范化数据仓库(normalized data warehouse)顾名思义，其中是规范化设计的分析型数据库，然后基于这个数据库为各部门建立数据集市。总体架构如下图所示：

漫谈数据仓库之维度建模_java_11

该建模体系首先对ETL得到的数据进行ER建模，关系建模，得到一个规范化的数据库模式。然后用这个中心数据库为公司各部门建立基于维度建模的数据集市。各部门开发人员大都从这些数据集市提数，通常来说不允许直接访问中心数据库。

数据仓库建模体系之维度建模数据仓库

非维度建模数据仓库(dimensionally modeled data warehouse)是一种使用交错维度进行建模的数据仓库，其总体架构如下图所示：

漫谈数据仓库之维度建模_大数据_12

该建模体系首先设计一组常用的度集合(conformed dimension)，然后创建一个大星座模型表示所有分析型数据。如果这种一致维度不满足某些数据分析要求，自然也可在数据仓库之上继续构建新的数据集市。

数据仓库建模体系之独立数据集市

独立数据集市的建模体系是让公司的各个组织自己创建并完成ETL，自己维护自己的数据集市。其总体架构如下图所示：

漫谈数据仓库之维度建模_数据库_13

从技术上来讲这是一种很不值得推崇的方式，因为将使信息分散，影响了企业全局范围内数据分析的效率。此外，各组织之间的ETL架构相互独立无法复用，也浪费了企业的开发资源。然而出于某些公司制度及预算方面的考虑，有时也会使用到这种建模体系。

三种数据仓库建模体系对比

规范化数据仓库和维度建模数据仓库分别是Bill Inmon和Ralph Kimball提出的方法。关于哪种方法更好，哪种方法更优秀的争论已经由来已久。但随着这两种数据仓库应用越来越多，人们也逐渐了解到两种数据仓库的优劣之处，如下表所示：

漫谈数据仓库之维度建模_python_14

产生这些区别的根本之处在于规范化数据仓库需要对企业全局进行规范化建模，这将导致较大的工作量。但这一步必须完成好，才能继续往上建设数据集市。因此也就导致规范化数据仓库需要一定时间才能投入使用，敏捷性相对后者来说略差。但是规范化数据仓库一旦建立好了，则以后数据就更易于管理。而且由于开发人员不能直接使用其中心数据库，更加确保了数据质量。还有由于中心数据库是采用规范化设计的，冗余情况也会更少。

然而另一方面维度建模数据仓库除了敏捷性更强，而且适用于业务变化比较频繁的情况，对开发人员的要求也没有规范化数据仓库那么高。总之各有利弊，具体实施时需要仔细的权衡。