内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》

概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后置和应用广泛」的特性。云原生是数据湖未来部署的必然形态,具有「建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能」的核心价值。

1 数据湖的定义

数据湖是面向大数据场景的创新解决方案。

早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。

随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。

云原生数据湖应用洞察白皮书_大数据

2 数据湖 vs 数据仓库

数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。

随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置schema,从而获取更强的灵 活性;同时通过统一存储管理和计算优化来保证数据的一致性和性能。

云原生数据湖应用洞察白皮书_数据仓库_02

3 云原生数据湖

云原生数据湖核心价值:

  • 集中存储、统一管理,建立高质量的数据资产
  • 通过云的方式,更低成本地使用存储和计算资源
  • 云湖共生,带来大数据应用的高性能体验
  • 重塑IT部门定位与价值,赋能业务应用敏捷创新

3.1 基于云原生数据湖的统一资产建设

随着数字转型化进入深水区,“数据”已经成为企业的核心生产要素,打通各部门、各应用系统,建立企业级的统一数据资产已经成为业内的共识。基于云上的集中存储和数据湖,企业可以更丝滑地实现数据多源聚合,对内外部数据进行全生命周期的管理,从而沉淀为数据资产,赋能业务应用,释放数据价值。同时,基于云原生数据湖部署的云原生应用天然可以实现数据的无界流动,数用一体为企业打造了高效的价值闭环。

云原生数据湖应用洞察白皮书_大数据_03

3.2 通过云的方式,更低成本地使用存储和计算资源

云原生数据湖是基于云环境构建的低成本大数据解决方案。于存储上,云原生数据湖使用对象存储,实现了无限扩容(理论上)和更低的价格,同时云上统一存储也简化了之后数据调用的复杂度;于计算上,云原生数据湖采用计算存储分离的架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;于用云策略上,云原生数据湖通过Serverless的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的成本最优。

云原生数据湖应用洞察白皮书_数据_04

4 产业图谱

公有云厂商+生态厂商的市场格局初现

云原生数据湖应用洞察白皮书_结构化_05