1、打通数据的存储与计算
很多公司对各类数据应用包括 SQL 分析、实时监控、数据科学和机器学习的灵活性、高性能系统的需求并未减少。AI 的大部分最新进展是基于更好地处理非结构化数据(如 text、images、video、audio )的模型,完全纯数据仓库的二维关系表已经无法承接半/非结构化数据的处理,AI 引擎不可能只跑在纯数据仓库模型上。
一种常见的解决方案是结合数据湖和数据仓库优势,建立湖仓一体化,进而解决了数据湖的局限性:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。

之前的微博基于大数据的需求发展了数据仓库平台,基于AI的需求,发展了数据湖平台,这两套大数据平台在集群层面完全是割裂的,数据和计算无法在两个平台间自由流动。而使用湖仓一体,就能实现数据湖和数仓之间的无缝流转,打通了数据存储和计算的不同的层面。

2、灵活性与成长性兼得
可知灵活性和成长性,对于处于不同时期的企业来说,重要性不同。

当企业处于初创阶段,数据从产生到消费还需要一个创新探索的阶段才能逐渐沉淀下来,那么用于支撑这类业务的大数据系统,灵活性就更加重要,数据湖的架构更适用。

当企业逐渐成熟起来,已经沉淀为一系列数据处理流程,问题开始转化为数据规模不断增长,处理数据的成本不断增加,参与数据流程的人员、部门不断增多,那么用于支撑这类业务的大数据系统,成长性的好坏就决定了业务能够发展多远。数据仓库的架构更适用。


经过对数据湖和数据仓库的深入阐述和比较,可以发现:数据湖和数据仓库一个面向初创用户友好,一个成长性更佳。对企业来说,数据湖和数据仓库是否必须是一个二选一的选择题?是否能有一种方案同时兼顾数据湖的灵活性和云数据仓库的成长性,将二者有效结合起来为用户实现更低的总体拥有成本?那么湖仓一体化就是答案!