作者:胡辣汤。

在本期《从数仓发展史浅析数仓未来技术趋势》的主题直播中,我们邀请到华为云EI DTSE技术布道师/华为云数仓GaussDB(DWS)首席架构师曾凯,针对数据仓库的起源、演进过程、未来技术发展趋势,与开发者和伙伴朋友们展开交流互动,帮助开发者快速了解数据仓库相关信息与能力。

数据仓库由何而来?

上世纪70年代,E.F.Codd提出关系型数据库模型,把用户从复杂数据处理的底层逻辑中抽离出来。1970年代,MIT提出单独构建分析系统的基础理论。1980年代初,W.H.Inmon开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究 。1990年代初,数据仓库之父--- W.H.Inmon出版了数据仓库的经典作品《构建数据仓库》。从90年代开始,数据仓库进入蓬勃发展时期,涌现了非常多数据仓库产品。数据仓库的概念内涵非常丰富,但从抽象来说,借用Inmon的定义,数据仓库是一个面向主题的、集成的、相对稳定、反映历史变化(随时间变化),用来支撑管理人员决策的数据集合。其中4个主要特点为:

  1. 面向主题:主要是给数据分类,方便理解和管理。
  2. 集成:在使用数据之前,需要对其进行加工与集成,并且其有统一的数据结构和编码。
  3. 非易失的:数据仓库中包含了大量的历史数据,其是极少或基本不更新的。
  4. 随时间变化:数据随时间不断积累,保存较长的时限。数据特征标明了历史时期,反映时间趋势的变化。

传统数据仓库技术架构

数据仓库的发展也经历了底层技术架构的演进。一般来说传统数据仓库的技术架构可以概括为三类:Shared Everything, Shared Disk和Shared Nothing。

  • Shared Everything针对单机数据库,完全透明共享单机内的CPU、内存、IO资源;
  • Shared Storage各个处理节点使用其自己独有的CPU、内存,但是存储是共享的;
  • Shared Nothing是一种分布式计算架构,CPU、内存、磁盘等资源都是私有的,整个系统中不存在共享资源,没有单点的竞争。

Shared-Nothing架构因为其优秀的可扩展性,目前已成为高性能数据仓库的主流架构。在该体系架构下,数据是按照节点水平划分,每个节点只负责自己本地的数据。这样就会使得每个节点有相同的功能并在自己的硬件上运行,其资源不去进行争用。

数据仓库逻辑分层架构

对于上层应用来说,业界有很多对数据仓库的逻辑分层架构,其中比较有代表性的逻辑分层结构有四个层次:分别为数据运营层(ODS,Operational Data Store)、数据明细层(DWD,Data Warehouse Detail)、数据服务层(DWS,Data Warehouse Service)、数据应用层(ADS,Application Data Service)。

  • 数据运营层(ODS),该层将原始数据几乎无处理地存放在数据仓库系统汇总,结构上与源系统保持一致,其职责是将基础数据同步、存储,是后续加工数据的来源;
  • 数据明细层(DWD),该层主要解决的是数据质量和数据完整性问题,在ODS的基础之上对数据进行加工处理,提供更干净的数据,并基于维度建模,明细宽表,复用关联计算,减少数据扫描;
  • 数据服务层(DWS),该层主要是将上层来的数据整合汇总成分析某一个主题域的数据服务层,用于提供后续的业务查询;
  • 数据应用层(ADS),是为数据产品和数据分析提供使用的数据,为进一步的数据分析提供个性化数据、宽表集市、趋势指标等。

未来,数据仓库将如何发展?

从早期PC时代到互联网时代、移动互联网时代,再到智能数据时代。数据特征呈海量化、多样化发展,业务特征呈实时化、生态化发展。自数字化以来,数据量年增长30%,每三年翻一番,互联网交易数据是4.5亿笔/天。为了充分挖掘数据价值,发掘数据潜力,便于支撑业务决策,使得业务收集保存越来越多的数据,带来了数据海量化。同时也促进了业务收集各种数据,比如日志、遥感、文件、图片的数据,从不同数据里挖掘信息,带来了数据多样化。业务决策要求发现数据中实时的趋势变化,支持实时的业务决策,例如实时风控、工业OT等,这些都要求数据分析的实时化;此外,数据的分析挖掘需要整合多样性的数据,从而走向多样信息的融合,走向生态化。

数据仓库发展趋势:




数据仓库架构趋势 数据仓库发展趋势分析_数据挖掘


华为云GaussDB(DWS)发展历程

华为云GaussDB(DWS)历经12年技术演进,2011年开始技术预研,2014年首次上市,通过不停地迭代和演进,从2017年开始大规模商用,当前全球已累积1700+大客户。针对数仓发展趋势,GaussDB(DWS)也在不断地演进,2022年推出实时数仓、IoT数仓,应对实时数据的接入,满足实时计算场景需求。



数据仓库架构趋势 数据仓库发展趋势分析_数据仓库架构趋势_02


2023年3月底GaussDB(DWS)即将发布云原生数仓,提供存算管三层分离、极致弹性能力,提供湖仓一体、数智融合和优异性能体验。

  • Serverless的云原生架构:存算管的三层分离,计算存储资源独立、灵活、快速伸缩,高性价比满足用户变化多样的负载需求和严格的负载隔离要求。
  • 极致弹性:多样的弹性方式逻辑集群扩缩容\启停,一份数据承载多样负载,数据实时共享。
  • 湖仓一体:支持数据湖与数仓互联互通,不需要进行数据搬迁,GaussDB(DWS)可以直接访问数据湖的数据表,进行数据分析,可以体验到数仓的极致分析性能和精准管控度。
  • 数智融合:数据生产线与AI生产线的无缝对接,数据生产线为AI生产线提供强劲的数据处理能力和灵活的供数方式;AI训练推理能力嵌入数据分析流程。
  • 优异性能:一体化性能优化,匹配传统数仓的性能体验。