# 初始阶段
1、需求分析
目标:收集业务需求与数据实现
实现过程:了解关键指标、竞争性商业问题、决策指定过程、支持分析需求
对象:通过与业务代表了解业务需求,以及与源系统专家交流
2、维度建模的四步法
(1)选择业务流程
(2)声明粒度
(3)确定维度表
(4)确定事实表
3、选择模型(星型模式与OLAP多维数据库)
模型作用:维度表到事实表之间的联系
OLAP:包含事实表和维度表
## 事实表技术基础
1、事实表的结构:与物理活动关系密切,受数据展现的影响不大
查询请求的主要目标是基于事实表开展计算和聚合操作
2、可加、半可加、不可加事实
3、事实表中的空值:允许事实表中存在空值,可以使用相关的聚集函数可以
4、一致性事实
5、事务事实表
6、周期快照事实表
粒度是周期的,而不是个体事务
7、累计快照事实表
汇总了发生在过程开始和结束之间可预测步骤内的度量
8、无事实的事实表
9、聚集和合并事实表
## 维度表技术基础
1、维度表结构
特征:维度表表包含单一的主键列
2、雪花维度
维度表中的层次规范有多层,建立的多级层次结构被称为雪花模式;.
# 中级阶段
容易发生的错误
1、过于迷恋技术,没有将重点放在业务需求和目标上
2、没有合适的项目发起人
3、项目规划不清楚
4、分配大量的精力去构建规范化数据结构,在基于维度模型建立可行的展现区前,用尽所有的预算
5、将主要精力投入到后端操作性能和易开发性,没有重点考虑前端的查询的性能和易用性
6、使存在于展现区的可查询数据极端复杂
7、将维度模型放在单一基础之上,没有考虑过共享一致性
8、只将汇总的数据加载到展示区的维度结构中
9、意象业务,业务需求分析,其涉及的数据及技术都是静态的
10、忽略DW的成功直接来源于业务的认可
## 维度建模过程流程图
准备---高级维度模型---详细维度模型开发---模型评审与验证---最终设计文档
1、业务需求评审
开始建模之前,必须熟悉业务需求
2、利用建模工具
3、利用数据分析工具
4、利用或建立命名规则
5、日历和设施协调
## SCD
1、SCD(Slowly Changing Dimension ):缓慢变化维度
其它:
数据仓库常见的三种模型:
1、关系模型
2、多维模型
3、Data Vault模型
注:关系模型的三要素
1>数据结构
2>完整性约束
3>SQL语言
规范化是通过范式规则实现的。
第一范式:保持数据的原子性
第二范式:消除了部分依赖
第三范式:消除了传递依赖
维度模型的核心概念是:事实、维度、粒度
星型模式和雪花型模式是维度模型的两种逻辑表示。
对星型模式进一步规范化,就形成了雪花模式。
Data Vault模型有中心表(Hub)、链接表(Link)、附属表(Satallite)
三个组成部分。
中心表记录业务主键,连接表记录业务关系,附属表记录业务描述
Data Vault不区分业务层面数据的正确与错误,它保留操作型系统的所有时间的
所有数据,装载数据时不做数据验证、清洗等工作。
数据集市是部门级的、面向主题域的数据仓库
数据集市的复杂度和需要处理的数据都小于数据仓库,因此更容易建立与维护。
实施一个数据仓库项目的主要步骤:
1、定义范围
2、确认需求
3、逻辑设计
4、物理设计
5、装载数据
6、访问数据
7、管理数据