一句话描述
面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。
特性
1.面向主题
传统的操作性系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观的分析领域。
主题域是对某个主题进行分析后确定的主题的边界,如客户、销售、产品等都是主题。一个主题域由多个相互关联的物理表构成。
针对性分析。
2.集成
多个异构数据源的集合
- 结构化数据
- 半结构化数据
- 数据文件(比如日志文件)
将多个异构数据源统一成一致的、无歧义的数据格式后,再放入数据仓库中。数据仓库必须能解决诸如产品命名冲突、计量单位不一致等问题
3.随时间变化
为了发现业务变化的趋势、存在的问题,或者新的机会,需要分析大量的历史数据。
与联机事务处理(OLTP)系统形成鲜明对比。联机事务处理反映的是当前时间点的数据情况,要求高性能、高并发和极短的响应时间,出于这样的需求考虑,联机事务处理系统中一般都将数据依照活跃程度分级,把历史数据迁移到归档数据库中。
而数据仓库关注的是数据随时间变化的情况,并且能反映在过去某个时间点的数据是怎样的。数据仓库中的数据是反映了某一历史时间点的数据快照
数据不可能永远驻留在数据仓库中,它在数据仓库中也有自己的声明周期。到了一定周期,数据会从数据仓库中移除。
4.非易失
数据一旦进入到数据仓库中,数据就不应该再有改变。
操作性环境中的数据一般都会频繁更新,但是数据仓库环境中一般不进行数据更新。
当改变的操作性数据进入数据仓库时会产生新的记录,这样就保留了数据变化的历史轨迹。数据仓库中的数据基本是静态的。