大数据基础

大数据

通俗意思就是海量数据,通常无法使用常规软件在一定的时间范围内进行捕捉管理或者分析,需要一定的处理模式才能具有更强的决策力、洞察发现力和优化流程能力。

数据仓库(DW)

面向主题的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
商务智能的基础平台。
它是用于支持决策,面向分析型数据处理,不同于操作型数据库(面向应用),多个异构的数据源有效集成,按照主题重组,存放到仓库中并且一般不再修改。
数据按照主题域划分,主题域是更高层次的抽象概念,例如政策、市场分析等。

OLAP和OLTP
  • OLTP:联机事务处理过程也称为面向交易的处理过程,特点就是即使处理,客户原始数据立即传回计算中心处理,并在短时间内给出处理结果。
  • OLAP:联机分析处理,支持复杂分析操作,侧重于对决策的支持,要求快速的对大数据量进行查询分析。
ETL

萃取(extract)、转置(transform)、加载(load)
指从来源端到目的端的数据处理过程。一般用作于数据仓库。

指标维度等相关术语
  • 指标:事务发展的单位或方法(人口数、GDP、用户数、利润率等),通过几个关键指标可以衡量一个公司的发展情况。
    通过一定的前提条件进行加和、平均等汇总计算方式得到的,前提条件例如时间、地点、范围也就是统计范围和口径
  • 维度:事务或现象的某种特征,例如性别、地区、时间等,时间是一种特殊的维度,通过时间前后对比可以知道事务发展的好坏,也称为纵比
    与之相对的是横比,例如不同公司的用户数,这种不同国家或公司的同级单位比较就是横比。
    维度分为定性维度(字符/文本型)和定量维度(数字型)
  • 度量:一类可以进行聚合分析的特殊维度,聚合后的结果称为指标。
  • 事实表:数据仓库的中央表,表述业务内特定事件的数据。
  • 维度表:维度属性的集合,观察数据的特定角度。
  • 基度:数据表中某列数据去重后的元素个数。
  • 星型模型:多维数据关系,一张事实表和一组维度表组成。
  • cuboid:某一维度组合下,度量聚合后的结果集合。
  • 数据立方(cube):一组用于分析数据的相关度量值和维度,所有cuboid的集合,存储和分析的基本单位。