2.2 数据仓库数据模型



数据仓库是企业一个专门的数据存储结构,其存储的数据是面向分析主题的、不同粒度的多维数据,应用在线分析(OLAP)等工具,可满足快速、灵活的查询需要,最终支持企业决策。



数据仓库建模技术分为实体关系建模和维度建模。其中维度建模是一种逻辑设计技术,它通过相对独立的业务创建有针对性的分析模型来进行组织设计。



模型本身主要是由事实表和维度表组成的:事实表是维度模型的主表,一般含有两个或者两个以上的外键组合的集合,这些外键被用来连接它们各自对应的维度表。



当前流行的数据仓库数据模型是多维数据模型,主要有星形模型、雪花模型、事实星座模型等。



主码是表中一个属性或几个属性的组合,它能唯一地标识表中的每条记录。外码是出现在一个表中,同时在另一个表中被定义成主码的属性。在数据仓库中,事实表的主码是组合码,维表的主码是简单码。事实就是通过与各维相对应的外码值同维表联系在一起。



在数据仓库中,对于比较简单的主题,一般一个主题对应一个事实表;对于比较复杂的分析主题,很可能多个主题对应多个事实表。存储在数据仓库中的事实必须体现决策人员进行分析的需要,决策人员对什么感兴趣,那么事实表中就该包含这个事实的度量值。



维表用于指导从不同的角度在事实表中选择数据行。维表的主码是事实表的外码。



星形模型:(最常见的范例,维表通过关键词实现与事实表的关联,从而形成不同的查询、分析和聚类。)

数据挖掘导论(学习笔记)——2.2 数据仓库数据模型_星形

雪花模型:是星形模型的变种,雪花模型的维表是规范化形式的,以便减少冗余。

数据挖掘导论(学习笔记)——2.2 数据仓库数据模型_雪花模型_02










事实星座:可以看作是一种特殊的星形模式集,允许多个事实表共享维表。

数据挖掘导论(学习笔记)——2.2 数据仓库数据模型_雪花模型_03