在日益激烈的商业竞争中,企业迫切需要更加准确的战略决策信息。在以往的关系型数 据库系统中,企业拥有海量的数据,这些数据对于企业的运作是非常有用的,但是对于商业 战略决策和目标制定的作用甚微,不是战略决策要使用的信息。

关系型数据库很难将这些数据转换成企业真正需要的决策信息,原因如下:

  1. 一个企业中可能有很多管理系统平台,企业数据分散在多种互不兼容的系统中。例如: 一个银行中的系统分为:核心系统,信贷系统,企业贷款系统,客户关系系统,助学贷 款系统,理财系统、反洗钱系统等,这些系统数据有可能存储在不同类型的关系型数据 库中。
  2. 关系型数据库中存储的数据一般是最基本的、日常事务处理的、面向业务操作的数据, 数据一般可以更新状态,删除数据条目等。不能直接反应趋势的变化。例如:用户登录 网站购买商品,在关系型数据库中最终存储的数据是某个用户下了一个订单,订单状态 为付款待发货。一般用户在网站浏览了什么商品,搜索了什么样的关键字,这些数据不 会存储在关系型数据库中,往往这些数据更具价值。
  3. 对于战略决策来说,决策者必须从不同的商业角度观察数据,比如说产品、地区、客户 群等不同方面观察数据,关系型数据库中数据不适合从不同的角度进行分析,只是面向 基本的业务操作。

所以我们需要对企业中各类数据进行汇集,清洗,管理,找出战略决策信息,这就需要 建立数据仓库。
数据仓库的出现与背景_人工智能
数据仓库:Data Warehouse,可简写为 DW 或 DWH。数据仓库是面向主题的、集成 的(非简单的数据堆积)、相对稳定的、反应历史变化的数据集合,数仓中的数据是有组织 有结构的存储数据集合,用于对管理决策过程的支持。
数据仓库的出现与背景_数据仓库_02

  • 面向主题:
    主题是指使用数据仓库进行决策时所关心的重点方面,每个主题都对应一个 相应的分析领域,一个主题通常与多个信息系统相关。
    例如:在银行数据中心平台中,用户可以定义为一个主题,用户相关的数据可以来自信 贷系统、银行资金业务系统、风险评估系统等,以用户为主题就是将以上各个系统的数据通 过用户切入点,将各种信息关联起来。如下图所示:
    数据仓库的出现与背景_数据挖掘_03
  • 数据集成
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系 统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关 于整个企业的一致的全局信息,这个过程中会有 ETL 操作,以保证数据的一致性、完整性、 有效性、精确性。
    例如某公司中有人力资源系统、生产系统、财务系统、仓储系统等,现需要将各个系统 的数据统一采集到数据仓库中进行分析。在人力系统中,张三的性别为“男”,可能在财务 系统中张三的性别为“M”,在人力资源系统中张三的职称为“生产部员工”,在生产系统 中张三的职称为“技术经理”,那么当我们将数据抽取到数据仓库中时,需要经过数据清洗 将数据进行统一、精确、一致性存储
  • 相对稳定
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有 大量的查询操作,基本没有修改和删除操作,通常只需要定期的加载、刷新。
    例如:某用户在一天中多次登录某系统,关系型数据库中只是记录当前用户最终在系统 上的状态是“在线”还是“离线”,只需要记录一条数据进行状态更新即可。但是在数据仓 库中,当用户多次登录系统时,会产生多条记录,不会存在更新状态操作,每次用户登录系统和下线系统都会在数据仓库中记录一条信息,这样方便后期分析用户行为。
  • 反映历史变化
    数据仓库中的数据通常包含历史信息,系统地记录企业从过去某一时点 (如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发 展历程和未来趋势做出定量分析和预测。
    例如:电商网站中,用户从浏览各个商品,到将商品加入购物车,直到付款完成,最终 的结果在关系型数据库中只需要记录用户的订单信息。往往用户在网站中的浏览商品的信息 行为更具有价值,数据仓库中就可以全程记录某个用户登录系统之后浏览商品的浏览行为, 加入购物车的行为,及付款行为。以上这些数据都会被记录在数据仓库中,这样就为企业分 析用户行为数据提供了数据基础。