1、数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库中的信息是按照决策者所关心的重点方面进行组织,如社保缴纳、社保支出等,数据仓库中的数据不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。数据仓库可以记录过去某一时点到当前各个阶段的信息。
2、数据湖
数据湖(Data Lake)是一个存储各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输,数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件,数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。通常使用Hadoop集群部署实现。
3、湖仓一体
湖仓一体主要提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。湖仓一体可以打破数据湖与数据仓库割裂的体系,实现数据数据湖+数据仓库的闭环,既可以保持数据的灵活性、多样性,又能够实现数据分析,提高数据应用的效率。
数据仓库,数据湖,湖仓一体