1. 数据仓库的设计
1.1 数据仓库设计的基本内容
本节我们将研究用于信息处理、分析处理和数据挖掘的数据仓库设计,数据仓库的设计与使用包含的内容有:
- 数据仓库的设计的商务分析框架
- 数据仓库的设计过程
- 数据仓库用于信息出处理
- 从联机分析处理到多维数据挖掘
2 数据仓库的设计的商务分析框架
2.1 数据仓库的用途和优点
- 拥有数据仓库,商务分析者能够得到什么?
- 数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,可以提供竞争优势。
- 数据仓库可以提供企业生成力量,因为它能快速、有效地搜集准确描述组织机构的信息。
- 数据仓库有利于客户关系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。
- 数据仓库通过以一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。
2.2 数据仓库设计需要考虑的视图
- 自定向下视图:可以让用户选择数据仓库所需的相关信息,这些信息能满足当前和未来的需求。
- 数据源视图:揭示被操作数据库系统收集、存储和管理的信息。这些信息可能以不同的详细程度和精度记录,存放在个别数据源表或集成的数据源表中。
- 数据仓库视图:包括事实表和维表。它们提供存放于在数据仓库内的信息,包括预计算的总和与计数,以及提供历史背景的关于源、日期和时间的信息。
- 商务查询视图:从最终用户的角度透视数据仓库中的数据。
3 数据仓库的设计过程
3.1 数据仓库设计过程和步骤
使用自顶向下方法、自底向上方法或二者结合的混合方法设计
- 自顶向下方法:由总体设计和规划开始(当技术成熟并已掌握,这种方法是有用的)
- 自底向上方法: 以实验和原型开始(在商务建模和技术开发的早期阶段,这种方法是有用的)
- 混合方法:一个组织既能利用自顶向下方法的有计划的战略性的特点,又能保持像自底向上方法一样快速实现和立即应用。
从软件工程的观点
- 瀑布式方法: 在进行下一步前,每一步都进行结构化和系统的分析。
- 螺旋式方法: 涉及功能渐增的系统的快速产生,相继版本的时间间隔很短。
3.2 典型的数据仓库设计过程
- 选取待建模的商务处理
- 如果一个商务过程是整个组织的,并涉及多个复杂的对象,应该选用数据仓库模型,如果处理是部门的,并关注某一类商务处理,则应选择数据集市
- 选择商务处理的粒度
- 选取用于每个事实表记录的维
- 选取事实表中每条记录的度量
4 数据仓库用于信息处理
4.1 数据仓库的应用
- 数据仓库和数据集市已在广泛的应用领域使用。工商企业主管使用数据仓库与数据集市中的数据进行数据分析并作出战略决策。
- 数据仓库使用的时间越长,它进化的就越好。
- 数据挖掘工具:检索工具、数据库报表工具、数据分析工具和数据挖掘工具
4.2 数据仓库的应用的分类
- 信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或进行报告。数据仓库信息处理的当前趋势是构造低价格的基于Web的访问工具,然后与Web浏览器集成在一起。
- 分析处理:支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴。
- 数据挖掘:支持只是发现,包括找出隐藏的模式和管理,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。
5 联机分析处理到多维数据挖掘
- 多维数据挖掘:把数据挖掘与OLAP集成在一起,在多维数据库中发现知识。
- 数据仓库总数据的高质量:大部分数据挖掘工具需要在集成的、一致的和清理后的数据上运行,这位需要昂贵的数据清理、数据变换和数据集成作为预处理步骤。
- 环绕数据仓库的信息处理基础设施:包含多个异构数据库的访问、集成、合并和变换。
- 基于OLAP的多维数据探索:有效的数据挖掘需要探索式数据分析。
- 数据挖掘功能的联机选择:用户常常可能不知道他想挖掘什么类型的知识。通过将OLAP与多种数据挖掘功能集成在一起,多维数据数据为用户选择所期望的数据挖掘功能,动态地切换数据挖掘任务提供了灵活性。