数据仓库和联机分析处理技术
1.数据仓库的4个基本特征是什么?
数据仓库的4个基本特征如下:
- 数据仓库的数据是面向主题的。
主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主题域。 - 数据仓库是集成的。
操作型数据与分析型数据之间差别很大,数据仓库的数据是从原有的 分散的数据库数据中抽取出来的,因此数据在进入数据仓库之前,必然要经过加工与集成,统一与综合。 - 数据仓库的数据是不可更新的。
OLTP数据库中的数据经过抽取、清洗、转换和装载存放到数据仓库中。一旦数据存放到数据仓库中,数据就不再更新了。 - 数据仓库的数据是随时间变化的
数据仓库的数据是随时间变化的特征如下:
数据仓库随时间变化不断增加新的数据内容;
数据仓库时间变化不断删去旧的数据内容;
数据仓库的码键都包含时间项,以标明数据的历史时期
2.操作型数据和分析型数据的主要区别是什么?
操作型数据是细节的,分析型数据库是综合或提炼过的
操作型数据可更新,分析型数据不可更新
操作型数据操作需求事先可知道,分析型数据操作需求事先未知
操作型数据在存取瞬间是准确的,分析型数据代表过去的数据
操作型数据生命周期符合SDLC,分析型数据生命周期完全不同
操作型数据对性能要求高,分析型数据对性能要求宽松
操作型数据以一个时刻操作一个元组,分析型数据一个时刻操作一个集合
操作型数据是事务驱动的,分析型数据是分析驱动的
操作型数据是面向应用的,分析型数据是面向分析的
操作型数据一次操作量小,分析型数据一次操作数据量大
操作型数据支持日常操作,分析型数据支持管理决策需求
3.数据挖掘和传统的分析方法主要不同是什么?
- 数据挖掘技术是从大量数据中发现隐藏的、人们事先未知的但又可能有用的信息和知识的一种新技术,是在没有明确假设的前提下去挖掘信息,发现知识。
- 传统的DSS系统通常是在某个假设的前提下,通过数据查询和分析来验证或否定这个假设。
4.大数据时代的数据仓库系统面临哪些问题?如何面对这些挑战?
- 传统数据仓库面临的问题:
数据移动代价过高
不能快速适应变化 - 为了应对这些挑战,以较低成本高效的支持大数据分析,新型的数据仓库解决方案需要具备一下特征: