一、数据仓库设计的商务分析框架
“拥有数据仓库,商务分析者能够得到什么?”首先,拥有数据仓库可以通过提供相关信息,据此估计性能并作出重要调整,以帮助战胜其他竞争对手,可以提供竞争优势。第二,数据仓库可以提高企业生产力,因为它能够快速、有效的搜集准确描述组织机构的信息。第三,数据仓库有利于客户联系管理,因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品的一致视图。最后,通过一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以降低成本。
为设计有效的数据仓库,需要理解和分析商务需求,并构造一个商务分析框架。构建一个大型复杂的信息系统就像构造一个大型复杂的建筑,业主、设计师和建筑商都有不同的视图。这些视图结合在一起,形成一个复杂的框架,代表自顶向下、商务驱动的或业主的视图,也代表自底向上、建筑商驱动的或信息系统实现者的视图。
关于数据仓库的设计,必须考虑四种不同的视图:自顶向下视图、数据源视图、数据仓库视图和商务查询视图。
- 自顶向下视图:使得我们可以选择数据仓库所需的相关信息。这些信息能够满足当前和未来的商务需求。(业务建模)
- 数据源视图:揭示被操作数据库系统收集、存储和管理的信息。这些信息可能以不同的详细程度和精度记录,存放在个别数据源表或集成的数据源表中。(ODS层)
- 数据仓库视图:包括事实表和维表。他们提供存放在数据仓库内的信息,包括预算的总和与计算,以及提供历史背景的关于源、日期和时间等信息。(企业级数据仓库)
- 商务查询视图:是从最终用户的角度透视数据仓库中的数据。
建立和使用数据仓库是一项复杂的任务,因为他需要商务技巧、技术技巧和计划管理技巧。关于商务技巧,建立数据仓库涉及到理解这样的系统如何存储和管理他们的数据;如果构造一个提取程序,将数据由操作数据库转换到数据仓库;如果构造一个仓库刷新软件,合理的保持数据仓库中的数据相对于操作数据库中数据的当前性。使用数据仓库涉及理解它所包含的数据的含义,以及理解商务需求并将它转换成数据仓库查询。
关于技术技巧,数据分析者需要理解如何由定量信息做出估价,以及如何根据数据仓库中的历史信息得到的结论推到事实。这些技巧包括发现模式和趋势,根据历史推断趋势和发现异常或模式漂移的能力,并根据这种分析提出条理清晰的管理建议。最后,计划管理技巧涉及需要与许多技术人员、经销商和最终用户沟通,以便以及时和讲求效益的方式提交结果。
二、数据仓库的设计过程
数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计。自顶向下方法由总体设计和规划开始。当技术成熟并且已经掌握,对必须解决的商务问题清楚并且已经很好的理解时,这种方法是有用的。自底向上方法以实验和原型开始。在商务建模和技术开发的早期阶段,这种方法是有用的。这样可以以相当低的代价推进,在作出重要承诺之前评估技术带来的利益。在混合方法下,一个组织既能利用自顶向下方法的规划性和战略性的特点,又能保持像自底向上方法一样开速实现和立刻应用。
从软件工程的角度来看,数据仓库的设计和构造包含以下步骤:规划、需求研究、问题分析、仓库设计、数据集成和测试,最后,部署数据仓库。大型软件系统可以用两种方法开发:瀑布式方法和螺旋式方法。瀑布式方法在进行下一步之前,每一步都进行结构的和系统的分析,就像瀑布一样,从一级落到下一级。螺旋式方法涉及功能渐增的系统的快速产生,相继发布之间的间隔很短,能够快速修改,并且新的设计和技术可以及时接受。
一般而言,数据仓库的设计过程包含如下步骤:
- 选取待建模的商务处理。如果一个商务过程是整个组织的,并涉及多个复杂的对象,应当选用数据仓库模型。然而,如果处理是部门的,并关注某一类商务处理的分析,则应选择数据集市。
- 选取商务处理的粒度。对于处理,该粒度是基本的,在事实表中是数据的原子级。
- 选取用于每个事实表记录的维。典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态。
- 选取将安放在每个事实表记录中的度量。典型的度量是可加的数据量。
由于数据仓库的构造是一项困难、长期的任务,因此应当清楚的定义它的实现范围。最初的数据仓库的实现目标应当是详细而明确的、可实现的和可测量的。这涉及确定时间和预算的分配,一个组织的那些子集需要建模,选取的数据源数量,提供服务的部门数量和类型。
一旦设计和构造好数据仓库,数据仓库的最初部署就包括初始化安装、首次展示规划、培训和熟悉情况。平台的升级和维护也要考虑。数据仓库管理包括数据刷新、数据源同步、规划灾难恢复、管理存取控制和安全、管理数据增长、管理数据库性能以及数据仓库的增强和扩充。范围管理包括控制查询、维、报告的数量和范围,限制数据仓库的大小,或限制进度、预算和资源。
各种数据仓库设计工具都可以使用。数据仓库开发工具提供一些功能,定义和编辑元数据库内容,回答查询,输出报告,向或从关系数据库目录传送元数据。规划与分析工具研究模式改变的影响,以及当刷新率或时间窗口改变时对刷新性能的影响。
三、数据仓库用于信息处理
通常数据仓库使用的时间越长,它进化的就越好。进化发生在整个过程的多个阶段。最初,数据仓库主要用于产生报告和回答预先定义的查询。渐渐地,它用于分析汇总和详细数据,结果以报表和图表形式提供。稍后,数据仓库用于决策,进行多维分析和复杂的切片以及切块操作。最后,使用数据挖掘工具,数据仓库可恩呢刚用于知识发现战略决策制定。这种意义下,数据仓库工具可以分为访问与检索工具,数据库报表工具,数据分析工具和数据挖掘工具。
企业用户需要一种手段,知道数据仓库里有什么(通过元数据),如果访问数据仓库的内容,如何使用数据分析工具考察这些内容和如何提供分析结果。
有三类数据仓库应用:信息处理、分析处理和数据挖掘。
- 信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低价格的基于Web的访问工具,然后与Web浏览器集成在一起。
- 分析处理:支持基本的OLAP操作,包括切片和砌块、下钻、上卷和转轴。一般的,他在汇总的和细节的历史数据上操作。与信息处理相比,联机分析处理的主要优势是它支持数据仓库的多维数据分析。
- 数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果。