数据仓库(Data Warehouse),... 数据湖(Data Lake)... 数据沼泽...数据平台... 数据中台
数据仓库(Data Warehouse),也称为企业数据仓库
,它是一个
面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统
,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是
高度建模
的。
数据湖(Data Lake)
在系统或存储库中以自然格式存储数据的方法
。数据湖作为一个集中的存储库
,可以在其中存储任意规模的结构化
和非结构化
数据。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本
数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理
,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺
。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集
。数据平台的出现是为了解决数据仓库不能处理非结构化数据
和报表开发周期长
的问题
数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理
;而数据中台的第一出发点不是数据而是业务
- 数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;
- 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;
- 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;