数仓概念
- 定义
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。(看不懂接着往后看)
- 数仓和数据库
数据库:二维表以及表中全部字段。表与表之间存在关系(可以是多维关系),所以常见的数据库都是用来做业务数据库。而业务数据库中的数据结构是为了完成业务而设计的,数据流和业务流高度重合 -- 清晰的存储业务数据 -- 但是从数据查询和分析的角度出发,但数据量达到一定程度,关系型数据库就不再适用。业务数据是个读写优化的存在,即有需要它读(查询商品信息),又有需要它写(存入用户业务数据)。
数据仓库:逻辑上,数仓和数据库完成相同的数据存储功能,但数仓的数据量远大于数据库。而数据仓库在读和写就选择了 -- 主读副写 -- 主要用于数据挖掘和数据分析,辅助决策。数据表结构是按照需要分析的数据事实和为了分析事实关联的维度的组合设计。
数据库与数据仓库的区别
功能 | 数据仓库 | 数据库 |
数据范围 | 历史的,完整的,反应历史变化的 | 当前状态的 |
数据变化 | 可添加,无删除,无变更,反应历史变化的 | 频繁的增删改查 |
应用场景 | 数据挖掘,数据分析 | 业务流 |
设计理论 | 事实+维度,适当冗余 | 遵循范式 |
处理量 | 非频繁,大批量,高吞吐,有延迟 | 频繁,小批次,高并发,低延迟 |
- 应用
数据仓库(DataWarehouse),为企业所有决策制定过程,提供所有系统数据所支持的战略集合。通过数仓中的数据分析,改进业务流程,控制成本,提高产品等。数据仓库并不是数据的最终目的地,而是为数据的最终目的地做准备,这些准备包括:清洗,转义,分类,重组,合并,拆分,统计等。