当前,数据成为驱动银行业数字化转型的关键生产要素。如何从海量的数据中识别有效的价值数据,实现业务与数据的深度融合,激活数据要素潜能、深挖数据资产价值,成为银行业持续探索的重要课题。
随着云计算、大数据等技术的发展,银行业对数据分析的需求也从面向过去的描述型分析,逐渐演变成面向过去、未来和现在的全视角、智能化分析。作为分析的数据源头,数据库是保障分析事务稳定、高效执行的关键基础设施。
在近期的直播中,我们从数据分析的视角介绍了银行业数据平台演进过程和实现方式,论述数据平台如何通过架构演进升级,帮助银行业最大限度释放数据资源价值。
银行业数据分析架构演进过程
相比其他行业,数据资产对于银行业而言尤为重要。在央行发布的《金融科技发展规划(2022-2025)》中,明确提出“激活金融数据要素潜能”“加强数据能力建设”“夯实金融创新发展数字底座”,加速金融科技创新发展中数据基础设施建设升级势在必行。
近年来,随着ICT技术的发展,银行业正从流程型驱动向数据型驱动演进。为了顺应分析需求的变化,银行业的数据平台也从单一架构的传统数仓过渡到多元化的数据平台,再演进为湖仓一体、存算分离的一体化数据平台。
从发展进程来看,银行业的数据分析平台经历了三个阶段:
分析1. 0阶段,银行的数据来源主要是通过整合历史累积的业务数据,其后通过报表、查询等形式,对业务历史数据进行统计分析,通过数据了解一段周期内的企业经营情况。因此,这一阶段银行以看到过去的描述型分析为主,平台采用传统的数仓平台,技术路线以传统MPP数据库(主要为一体机)加Oracle为主。
伴随着数据量的增长,仅仅对过去行为进行分析的1. 0 阶段已经无法满足银行业务发展的需求,银行开始通过建立数据科学团队,针对海量数据进行探索和研究,从数据中发现新的业务趋势,对业务进行前瞻性预测。在描述型分析的基础上,银行继而大力开展面向现在的预测型分析,银行业数据分析随之进入2.0阶段。
图1:银行多元化数据平台架构
在数据分析2.0阶段,很多银行都采用了多元化、混合架构的思路,技术上引入了纯软的MPP数据库和Hadoop。但随着银行业务负载越来越复杂,需求越来越多,多元化平台无法实现高并发、负载无法隔离等缺陷愈发凸显,同时还存在业务体验波动、数据整合不足、数据支撑不佳、运维管理复杂等缺点。尤其是这种架构的数据平台通常是T+1的频率获取数据,无法做到实时数据加工处理。
随着分析需求的持续推进,银行希望通过现有的数据来直接实时地反映当前的业务情况,数据分析开始进入3.0阶段。在这一阶段,银行需要提高数据分析的时效性,打通前后端,将分析发现的业务洞察嵌入业务流程,自动化、智能化驱动业务。因此,银行逐步开展“决定现在的运营型分析”,在开展业务流程或活动过程中,直接调用数据产品或服务,利用数据分析成果,驱动保障业务健康发展。
在数据分析3.0 阶段,银行应具备全视角数据分析能力,传统BI平台已无法满足全视角分析需求,银行需要建设一体化的数据平台,管理多形态、多时效全域数据,打通前后端业务,实现全视角分析。
云原生数仓助力银行一体化数据平台建设
一体化数据平台要具备三项基础能力:多形态数据管理能力、多样化分析计算能力和多维度的弹性伸缩能力。
一体化数据平台应该能够兼容结构化、半结构化、非结构化等不同形态、不同时效性的数据,进行多样化的计算和分析,并根据业务需求变化进行弹性伸缩。
为了满足搭建银行全行数据平台的需求,基于本地磁盘的完全无共享并行处理架构的MPP数据库逐渐成为搭建数据平台、支撑分析应用的首选技术。但是,随着业务的发展,数据量的进一步增长,基于本地磁盘的完全无共享MPP架构在实际落地时面临着挑战,如:存算紧耦合、木桶效应、扩容数据重分布、并发限制、混合工作负载等等。
伴随着银行数据分析需求的升级,传统的MPP架构数据仓库已经无法满足银行建设一体化数据平台需求,越来越多的银行开始应用云计算、分布式技术,建设全行级的一体化数据平台,整合全域数据,形成面向整个银行统一的数据视图,支撑全视角数据分析。
在这样的背景下,基于云原生架构的数据库产品应运而生。同时,Snowflake、Databricks等独立软件厂商也推出存算分离、湖仓一体架构的产品。
图2:以HashData为例的全视角一体化数据分析平台
其中,Snowflake提出了基于对象存储的多集群弹性并行处理架构(Elastic Parallel Processing,简称EPP),这种架构具有MPP执行引擎、标准SQL接口,元数据、计算和存储三者分离、多集群统一数据存储层、对象存储作为数据持久层等特点。
图3:HashData数据仓库架构
作为国内最早进军云原生数据仓库领域的企业之一,HashData采用业界领先的云原生大数据系统设计理念,围绕着对象存储和抽象服务构建,最大限度发挥云计算优势,实现快速部署、按需伸缩、不停机交付等,大幅降低企业进行大数据分析的门槛。
HashData作为一款企业级云端数据仓库,融合了MPP数据库的高性能和丰富分析功能、大数据平台的扩展性和灵活性,以及云计算的弹性和敏捷性,提供了传统解决方案无法比拟的高并发、易用性、高可用性、高性能和扩展性。
同时,基于领先的EPP架构,HashData采用对象存储作为数据持久层,实现了存算分离、湖仓一体化,具备高可用、高并发、近乎“零运维”等特点。
对于传统MPP数据库难以实现高并发的“痛点”,HashData通过云原生架构,实现了多个集群共享统一的元数据、统一的数据存储,集群间不竞争CPU、内存和IO资源,可以根据业务需求无限地创建集群。
为避免出现“数据孤岛”和冗余,HashData采用共享存储架构,任何一个计算集群都可以去访问同一份数据,所有集群共享同一份元数据,彻底消除“数据孤岛”和冗余,确保数据的实时性、一致性。
凭借领先的技术优势和丰富的实践经验,HashData目前已广泛应用于金融、政务、运营商、交通物流、能源和互联网等领域。
在银行业,HashData为金融监管机构、国有大行、政策性银行、股份制商业银行、省农信等机构提供数据管理与分析服务,为银行打造了一体化数据平台。Hashdata期待在分析视角转换的今天,能够参与银行业数据平台架构演进的趋势中,助力银行业实现数据融通,释放数据价值。