数据库:分布式数据库•新变量_java


数据库行业:行业螺旋上升,分布式数据库时代到来


数据库发展需要关注增量市场,分布式数据库或成新机遇

数据库的发展与计算载体紧密相关。数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与其进行数据交互。数据库的开发难度,不仅体现在与其他基础器件的适配,更在于如何实现对数据高效、稳定、持续的管理。从数据库的发展历程来看,计算架构的变化,计算载体的变化、计算场景的变化,以及计算数据格式的变化都对数据库的发展带来的一定的影响。或者说,在以上计算环境变化下,其需要的数据库类型也发生了变化。


从计算载体来看,数据的计算从原来的大型机、到小型机、个人电脑PC、互联网、移动互联网、云计算,以及未来更多终端的物联网智能终端。计算的载体更加多样化。


从计算场景来看数据计算也从单独的单机计算,到互联网多群体交互的联网计算和云计算,以及万物互联的高并发、低时延的物联网计算。


从计算架构来看,传统的IT架构也正逐步向云架构迁移。我们也经历了从C-S架构到B-S架构,而目前的云原生、分布式计算架构正对传统计算架构带来深刻变革。而新的计算架构也对计算的基础软件(操作系统、数据库、芯片等)提出更高的需求。



图表1:计算的变化

数据库:分布式数据库•新变量_java_02



在以上计算环境的变化下,我们看到,联网的数据也在发生深刻变化。


数据的大小。目前联网数据量也在高速增长。通信技术的发展带动从2G到3G、4G、5G的演进,每代通信技术之间,联网的数据规模也呈现(几个)数量级的增加。对大容量、高性能计算提出更高要求。


数据的类型。计算场景的演变,我们对数据的定义也在发生变化。图片、语音、视频等非结构化数据成为增量数据的主要类型。联网的数据类型也逐步从原来的结构化数据到非结构化数据演变,这就对计算的并发性提出了更高的要求。


数据的快慢。对数据的高速计算是计算机一直以来的追求。但原有的IT架构下,计算速度的提升存在一定的物理条件限制。经典的IT架构已经存在了几十年的历史,当时的IT架构并没有完全考虑到目前计算场景的变化。因此,新的计算场景下,对数据高速计算的追求,需要我们从底层基础软件的变革开始。我们看到无论芯片、操作系统还是数据库,都在经历深刻变革。



图表2:数据的变化

数据库:分布式数据库•新变量_java_03



在以上计算和数据多个维度变化的情况下,我们认为,数据库行业也正在经历历史演进的深刻变革。在传统计算环境和数据类型方面,传统数据库依然发挥比较重要的作用。但在面向未来新的计算场景方面,我们需要的可能是新型的数据库产品。这种新型数据库,是计算架构迁移、计算载体演进以及计算环境变化之后的产物;同时,也是数据规模大幅增加,数据结构变化之后所需要的产品。



图表3:数据库发展

数据库:分布式数据库•新变量_java_04




全球关系型数据库市场增速渐趋平稳。数据库是对数据的管理,数据库诞生于上世纪60年代,传统的数据库产品面临的是以事务型、交易处理为主的任务,事务支持性能较好的关系型数据库如Oracle、DB2迅速兴起。而近年来,传统的关系型数据库市场增长渐趋平稳,据Gartner,2018年全球数据库管理系统(DBMS)市场规模达461亿美元,同比增长18.4%,增速达到近十年峰值。但关系型数据库市场增长渐趋平缓,据T4.ai预测,全球关系型数据库市场规模2018-2022E CAGR为6%,较2012-2017的11%或将有所下降。


数据量上升催生分析需求,数据库市场新机遇显现。随着智能移动手机的普及及云计算的兴起,全球数据产生量不断上升,从2010年的1.2ZB上升至2018年的33ZB。未来几年内随着各类智能物联设备的推广以及云计算的进一步应用,数据量有望进一步上升。随着数据量上升,大数据分析的需求逐步显现,传统的关系型数据库在高并发、分析等方面存在一定的劣势,应运而生的分布式数据库能够较好的满足大数据分析的需求,或形成数据库市场新的增量。



图表4:全球数据库市场规模

数据库:分布式数据库•新变量_java_05



图表5:全球数据产生量

数据库:分布式数据库•新变量_java_06



图表6:数据库演进

数据库:分布式数据库•新变量_java_07






数据库发展历程复盘:计算载体变革,催生新兴数据库龙头



阶段一:大型机到小型机时代促成了Oracle的兴起


上世纪90年代小型机兴起促成Oracle兴起。上世纪80年代到90年代,IBM PC兼容机的出现使新兴中小厂商能够提供价格更低,并且同样能兼容多种第三方软件的计算机产品,IBM PC兼容机市场份额也因此迅速增长,推动了计算机在美国家庭内普及。此后,Windows3.0于1990年推出,提供了较为成熟的图形界面操作系统,推动了计算机的普及。这一阶段内,Oracle数据库等产品最终战胜了主机数据库占领了这一新增市场,从收入规模变化看,1990-2000年Oracle营业收入高速增长,期间CAGR达到27.3%。


图表7:90年代美国计算机销售快速增长

数据库:分布式数据库•新变量_java_08


图表8:90年代Oracle营业收入规模高速增长

数据库:分布式数据库•新变量_java_09



技术积累帮助Oracle开拓小型机市场。基础软件从产品诞生到走向成熟往往需要十年左右的时间。以Oracle为例,公司于上世纪80年代初开始产品化,一直处于技术与商业的积累过程。直到1992年,公司推出旗舰产品Oracle7,迅速把握小型机发展带来的市场机遇,在与IBM DB2 for LUW、Informix、Sybase等著名数据库厂商的一系列竞争后,一跃成为行业的霸主。



图表9:Oracle主要数据库产品(2010前)

数据库:分布式数据库•新变量_java_10



阶段二:小型机到分布式时代,AWS兴起


分布式架构时代,AWS等数据库兴起。随着数据量的增长,传统数据库面临挑战,分布式数据库的访问模式从过去单一标准化的SQL,向包括SQL在内的多种访问模式转化,催生了分布式数据库的发展。2005年起,人们开始了针对分布式数据库的探索,以HBase、Cassadra、MongoDB为代表的NoSQL数据库快速发展。此类数据库通过提供KV接口、简化存储模型等方式实现容量水平扩展,但对业务的支撑有所减弱。2012年左右随着Google关于Spanner和F1论文的发表,以Aurora、Spanner为代表的分布式数据库迅速发展。分布式数据库结合了非关系型数据库的存储管理能力、关系数据库的ACID特性和SQL便利性。从结果看,分布式技术历经十年左右的发展,如今逐步被大量企业接受,而在这一阶段内,AWS aurora等新兴数据库逐步兴起。



国产分布式数据库2011年陆续起步。自2011年起,以Oceanbase、巨杉数据库、TiDB为代表的国产分布式数据库相继诞生。三者发展路径及商业化时间有所区别,其中Oceanbase诞生于2011年,最初主要用于阿里集团内部,在2017年首次实现商用;巨杉数据库诞生于2011年,于2013年正式发布商用版本,并持续服务于金融银行行业;TiDB于2015年发布,重点经营开源策略。



图表10:分布式数据库发展历程

数据库:分布式数据库•新变量_java_11



AWS发展全新的技术体系,把握分布式数据库浪潮。AWS数据库平台可以视为一个大型数据服务资源池,在底层共享统一的存储与计算资源,在上层则提供了Aurora、RDS、DynamoDB、Neptune等数据库服务实例,从而实现对更多业务场景和服务模式的覆盖。通过全新的技术体系,亚马逊AWS满足了多样化的计算需求,2013-2020年收入CAGR达到46.7%。并且凭借云计算业务的快速扩张,获得了领先的市场地位。截至2019年,据Canalys,AWS在云基础设施市场份额达到32.3%,具有一定的优势。



图表11:AWS收入及占亚马逊总收入比

数据库:分布式数据库•新变量_java_12



图表12:2019年全球云基础设施市场份额

数据库:分布式数据库•新变量_java_13



图表13:AWS数据库技术体系

数据库:分布式数据库•新变量_java_14







进入战国时代,云计算场景推动分布式数据库时代到来



分布式数据库满足云计算场景的需求


计算场景不断变化,云成为重要的计算场景。不同的计算场景对数据库有不同的要求,随着数据量的不断增长,传统的终端计算场景难以满足大量的数据处理需求。而云计算将计算与存储资源弹性、动态分配,边缘计算通过边缘节点提升了计算的效率,实现了高效的数据处理,云端、边缘端的计算场景重要性逐步提升。据Gartner,全球云计算市场规模由2011年的910亿美元增长到2019年的1880亿美元,期间CAGR达到9.5%。



图表14:全球云计算市场规模

数据库:分布式数据库•新变量_java_15


分布式数据库能够较好满足云计算场景的需求。分布式数据库将数据库进行资源池化管理,具备多模式、多租户、HTAP、弹性扩张、高可用等特性,与云计算、分布式应用开发模式相匹配。分布式数据库包括底层数据库资源池化管理、多模式两大重要特点。


(1)底层数据库资源池化管理:指以资源池的方式,上层应用中所有模块在底层数据库资源池中创建独立的数据库实例,服务于自身业务。每一个数据库实例可以提供完全不同的兼容MySQL、PostgreSQL、MongoDB、S3等接口,也可以将所使用的底层物理资源扩展到多个服务器中做到自由伸缩,同时也能够保障不同实例之间的数据可以根据策略做到物理或逻辑层面的相互隔离。在这种体系架构中,应用程序依然能保持独立的微服务形态。 



(2)“多模式”特性:指同一套分布式架构底座同时支撑上层超过一种数据访问接口,访问方式包括但不限于SQL引擎、类似JSON的半结构化数据、S3的非结构化数据、KV键值对存储、图数据库接口、时序型数据接口等。通过此种方式,可以对存储于不同的物理服务器、不同格式的数据进行数据结构与算法的优化,从而形成“数据服务平台”,突破数据库类型的限制,对上层不同类型的应用同时提供多种类型的数据服务。



图表15:云原生概念变迁

 

数据库:分布式数据库•新变量_java_16



分布式数据库满足云原生需求,或将成为新的增长点。从云原生概念变迁看,云原生使用微服务、容器等技术,目的在于提供更加敏捷的服务支持,协助业务更易于实现扩展及持续交互。分布式数据库通常是基于一个数据集合,这些数据分布在由计算机网络连接起来的若干节点上,每个节点可以管理本地的数据应用,也可以参与全局数据应用,同时这些数据在逻辑上形成一个整体,由统一的数据库管理系统进行管理。从架构上看,分布式数据库提供了灵活的数据服务支持,实际上是一种“云原生”的架构体现。



图表16:全球数据库市场规模(分类别)

数据库:分布式数据库•新变量_java_17



大数据向分布式数据库倾斜,或形成新增量。以Hadoop为代表的第一代大数据系统框架对大数据技术的落地起了重要的作用。Hadoop起源于2004年,并于2006年成为一套独立完整的软件。Hadoop主要包括文件系统HDFS及计算系统MapReduce,采用计算存储一体化的方式,将巨大的数据集分派到由普通计算机组成的集群中的多个节点进行存储, 并能对数据进行索引和跟踪。但随着数据量和分析需求的复杂性的进一步增加,Hadoop中“Map+Reduce模型不适合描述复杂的数据处理过程”、“查询效率较低”、“时刻在线处理导致使用成本高”等问题逐步显现,分布式数据库或成为大数据领域的新选择。


图表17:Hadoop生态模型

数据库:分布式数据库•新变量_java_18






Snowflake、Databricks引领数据湖兴起



数据仓库性能较强,数据湖更具灵活性。数据仓库与数据湖侧重点有所区别,数据仓库关注的是数据使用效率和数据管理,为企业各级别、业务线的决策制定提供统一的数据支持,其数据主要来源于业务系统,存储格式以结构化为主,并且历经加工清洗,数据形态显得更加范式化、模型化,因此数据的灵活度较低。相比之下,数据湖则是以原生格式(或者经过粗加工后)进行积累和沉淀,格式丰富多样,有结构化、半结构化、非结构化类型,强调数据的原始性、灵活性和可用性。相比数据仓库,数据湖所储存的数据类型更加丰富,同时开放存储让上层引擎灵活度增加,引擎可随意读写数据湖中数据,兼容的宽松性强。但另一方面,数据湖中文件系统直接访问使得很多更高阶的功能很难实现,如细粒度权限管理、读写接口升级等。



图表18:数据湖 vs 数据仓库

数据库:分布式数据库•新变量_java_19



Snowflake:提供数据仓库、数据湖等多种产品

Snowflake满足并发性、可扩展性、易用性、平台中立性的需求。公司完全基于公有云,提供包括数据仓库(Data Warehouse)、数据湖(Data Lake)在内的多种产品,支持非结构化数据、数据可视化和分析。公司意在打造综合性的云数据平台,其数据库可在三大公有云AWS、Azure 和 Google Cloud Platform上部署,对于企业多云异构的复杂环境有适用性、中立性,同时亦提供数据交换功能,解决了过去用户面临着投入高、灵活度低等问题,可吸引中小型客户。据公司财报,截至2020年7月,公司有3117 个企业客户,同比增长超100%,截至2021财年Q3,公司的数据提供商已经突破100家。


图表19:Snowflake数据湖产品vs数据仓库产品

数据库:分布式数据库•新变量_java_20



图表20:Hadoop vs snowflake

数据库:分布式数据库•新变量_java_21



数据仓库满足多种使用场景需求。其中弹性数据仓库的系统会随着负载变化自动扩展或收缩,根据需要向主机复制数据,且并不限制处理请求的数量,从而实现数据服务弹性。数据仓库采取Shared-nothing架构,在节点之间不共享任何数据,此外Snowflake基于Multi-cluster, shared data的概念,将存储和计算分离,解决了升级扩容时需要重新分配节点资源等痛点。在数据支持方面,Snowfalke支持结构化和半结构化数据的组合使用,可以接收JSON、XML或Avro格式的数据,并且支持嵌套和重复数据类型,从而满足传统数据库、Hadoop等半结构化使用场景的使用需求。


图表21:Snowflake数据仓库架构

数据库:分布式数据库•新变量_java_22



Snowflake数据湖产品强调查询性能、数据管道集成可扩展、安全等。利用内置数据治理和安全性的同时实现快速的数据访问,具备较好的查询性能,并且对数据转换进行了良好的支持,通过云的模式为客户省去运维成本。在查询性能方面,支持即时和几乎无限的可扩展性和并发性;此外,通过集成和可扩展的数据管道,实现简化数据管道开发以优化性能。依靠管道实时可靠地扩展来处理繁重的数据工作量和可扩展的数据转换;在安全方面,则提供了安全的数据协作功能。 



图表22:Snowflake数据湖


 

数据库:分布式数据库•新变量_java_23




Snowflake服务各行业客户。以hookit为例,据公司官网,Snowflake为hookit构建具有可扩展性的多集群共享数据架构数据库,提高了Hookit的运营效率。查询效率提高30倍,每天可自动评估社交帖子5亿条,数据仓库基础架构成本降低40%,消除了88%的内部支持请求,提升了客户的运行效率,使客户能够专注于产品创新。



图表23:Snowflake客户

数据库:分布式数据库•新变量_java_24



Databricks:Lakehouse概念,帮助客户构建统一分析平台


Databricks推出Lakehouse概念。Lakehouse是由“Data Lakes”与“Data Warehouses”融合而成。普通的数据湖在数据质量、一致性/隔离性、混合处理追加读取等方面不如数据仓库。Lakehouse兼容了数据仓库和数据湖的优势,在数据湖的低成本存储上实现数据仓库的数据结构和管理功能。Lakehouse功能包括事务支持、模式执行和治理、BI支持、存储与计算分离、开放性、支持多种数据类型、各种工作负载、端到端流。



图表24:Lakehouse

数据库:分布式数据库•新变量_java_25



为客户提供统一分析平台提升效率:构建统一分析平台,简化跨功能团队的分析工作流程,使用单一平台查询、调试和探索流式处理和批次数据,以及构建和部署ML模型。打造交互式工作空间,促进与共享笔记本环境的合作,使数据科学家能够快速实时在模型上进行重复。同时简化管理,使公司无需人工干预即可完全自动化作业调度、监控和集群管理。以RB为例,Databricks为RB提供了一个统一的数据分析平台,该平台在数据科学和工程领域营造了可扩展的协作环境,使数据团队能够更快地进行创新,并为业务提供ML驱动的见解。据公司官网,该方案使得公司业务可支持量提高10倍,数据从80TB压缩到2TB,降低了运营成本,24*7个任务的数据管道性能提高2倍。



图表25:Databricks客户

数据库:分布式数据库•新变量_java_26






数据库:六大评判维度



综合前文数据库行业的发展历程,我们总结了数据库的几个评判维度,主要包括:品牌基因、商业模式、内核基础、技术架构、商业落地、人才体系。



维度一:品牌基因。品牌定位和创始团队背景


关注品牌基因。包含品牌的背景,商用首发时间,资金背景,创始团队背景、厂商主营业务等。品牌基因反映出数据库的品牌特性,商用首发时间较早的数据库厂商往往在传统数据库领域具有较为深厚的积累,近年来新诞生的势力包括独立创新品牌和大厂的数据库产品。从创始团队背景看,则反映出数据库产品的技术背景,当前国产数据库创始团队多来自国内顶尖院校、海外数据库厂商或国内互联网大企业内部培育。此外,由于大数据时代数据库的作用日益重要,在传统的数据库厂商之外,金融服务厂商、ICT等主营业务非数据库的厂商也推出了自己的数据库产品。主营业务非数据库的厂商基于特定场景延伸出的数据库产品针对特定的行业可能存在一定的竞争优势。但与此同时,相比独立数据库厂商,此类厂商的发展路径及方向可能会受到母公司策略方向的制约。



图表26:数据库品牌基因对比

数据库:分布式数据库•新变量_java_27



维度二:商业模式。基础软件需要企业级服务,开源具有两面性


数据库是基础软件,稳定性较为重要。基础软件指操作系统、数据库、中间件等服务于软件开发者的,最底层的软件。此类软件直接调度CPU、内存、磁盘、网络等硬件设备,因此稳定性较为重要。数据库在IT架构中扮演着承上启下的角色,向下对接操作系统,需要直接调度各类硬件,分布式数据库还需要协调多台服务器形成整体的可管理集群,深度参与跨节点事务控制及网络优化以获得最佳性能;向上则需要支撑大量不同形态的上层应用。与应用软件相比,数据库作为基础软件更加注重稳定性。



图表27:数据库在IT架构中的位置

数据库:分布式数据库•新变量_java_28



开源具备两面性,企业级服务厂商具备稳定性优势。开源将二次修改使用源代码的权利公开,有助于快速的积累用户,当客户将包含开源产品的内容通过闭源方式销售时则需要支付费用,厂商实现用户资源变现。但相比企业级服务,开源往往通过技术社区的方式维系,缺乏法律合约关系,开发者响应速度难以保障,并且在社区参与者过多的情况下维护难度也有所提升。相比之下,企业级服务具有稳定性的优势。因此对于数据库等重视稳定性的基础软件,企业级服务产品具备一定的优势。



图表28:基础软件VS应用软件

数据库:分布式数据库•新变量_java_29



图表29:各开源产品协议调整情况

数据库:分布式数据库•新变量_java_30



开源或闭源模式均需导向企业级服务。开源具有两面性,通过将二次修改使用源代码的权利公开,打造开发者生态,有助于快速的积累用户。但开源和闭源并非不会改变,同一家数据库厂商可能在不同的阶段选择开源或闭源,此外,在同一时期,也可能同时发布开源、闭源的不同版本产品。如Oceanbase、GaussDB均经历过开源与闭源的切换。但一般来说开源版本往往较低,企业级服务需要最新,最稳定的性能,因此闭源模式的产品较为适合。



维度三:内核基础。原厂自研能力关键,掌控核心代码或成重要竞争力


企业级原厂服务有助于从源头解决问题。企业级服务包括企业级原厂服务及第三方支持服务。企业级原厂服务指掌握每一行核心代码,可以从源头解决软件核心问题的厂商,企业通过购买其产品及服务,可以获得系统故障过后第一手的服务承诺。而第三方支持服务,如同数据库行业中各类运维服务商,在成熟的市场体系下可以协助客户以更低的成本获取常规服务支持,但由于第三方支持服务商往往不具备产品的核心研发能力,因此往往作为服务辅助。


图表30:企业级原厂服务VS第三方支持服务

数据库:分布式数据库•新变量_java_31


企业级原厂服务掌握迭代控制权,有助于持续发展。开源社区及第三方厂商虽然拥有更改源代码的能力,但其更改存在不被主流社区接纳,最终与主社区脱节的风险,因此稳定性上存在一定隐患。相比之下,企业级原厂服务掌握迭代控制权,有助于持续发展。在分布式数据库的厂商选择上同样如此,具有全面掌握所有核心代码主导权的厂商所提供的企业级原厂服务能形成更加有力的技术支持。国内商业闭源的分布式数据库厂商大多为主研发,具备企业级服务基因。 



图表31:企业级原厂服务VS开源数据库

 

数据库:分布式数据库•新变量_java_32



关注是否为完全自研可控。数据库内核是否自研关系到数据库厂商是否完全能掌握迭代控制权,目前国产数据库多采取具备自主知识产权的自研内核。选取具备自研内核的数据库产品有助于提升产品升级迭代的稳定性和可控性,对于重视稳定性的基础软件领域,自研可控是重要的考虑因素。



图表32:数据库内核自研情况

数据库:分布式数据库•新变量_java_33



维度四:技术架构。不同数据库适用于不同场景


关系型数据库vs非关系型数据库。根据数据存储结构区分,可以分为关系型数据库、非关系型数据库,其中非关系型数据库根据存储方式又可以分为键值数据库、列数据库、文档数据库、图数据库等。非关系型数据库在读写性能、扩展性上具有一定的优势,因此较适应大数据、高并发等场景,而关系型数据库具备强一致性,遵循ACID原则,因此在事务支持中具备优势。


图表33:关系型数据库vs非关系型数据库

数据库:分布式数据库•新变量_java_34




图表34:非关系型数据库分类

数据库:分布式数据库•新变量_java_35



集中式数据库vs分布式数据库。根据系统架构分,可以分为集中式数据库、分布式数据库。分布式数据库在可扩展性、高并发支持方面具有优势,集中式数据库在事务性支持上遵循ACID原则,在事务支持上具备优势。从优劣势看,分布式数据库的优劣势与非关系型数据库类似,而近年来,分布式数据库不断发展,在提供高弹性、支持高并发的同时,与关系型数据库强事务性支持的特性进一步结合。



图表35:集中式数据库vs分布式数据库

数据库:分布式数据库•新变量_java_36



磁盘数据库vs内存数据库。根据存储设备分,可以分为磁盘数据库、内存数据库。内存数据库指将数据放在内存中直接操作的数据库,具备读写速度快的优势。相比之下,磁盘数据库在容量大小、数据安全性能方面具有一定的优势。从内存数据库及磁盘数据库的特点看,内存数据库适用于对读写要求较高,快速开发的场景。


图表36:内存数据库 vs 磁盘数据库

数据库:分布式数据库•新变量_java_37



数据库技术架构评判要点与计算场景、数据类型相关。计算场景的变化、数据结构的丰富等,催生出不同的数据库需求。纵观数据库的发展历程,我们总结出了以下几个评判数据库技术架构的要点,不同的场景对每个维度的侧重有所不同。


查询:随着数据类型的丰富,传统的关系型数据库难以满足需求,新兴的非关系型数据库增加了针对多种非结构化数据类型的查询方法,数据库查询方式决定了其适用的数据类型。在数据类型日益丰富的今天,查询方法是评判数据库的重要维度。


容量大小&弹性:随着数据量的不断提升,容量大小和弹性的重要性逐步上升。


1)容量大小:内存数据库受限于物理内存大小,相较于磁盘数据库容量上存在劣势,因此使用场景也相应受到限制;


2)弹性:分布式数据库支持通过添加服务器的横向扩展方式,使数据库获得了更高的性能,而传统的集中式关系型数据库支持提升处理器性能的方式纵向扩展,相比之下弹性较弱。面对高并发的分析型、大数据类任务,分布式数据库就体现出一定的优势。


事务支持:事务支持要求具备一致性原则,传统的关系型数据库在事务支持方面遵循了ACID原则,包括原子性、一致性、隔离性、持久性,从而实现较好的事务支持。非关系型数据库在事务支持方面仅能遵循大部分BASE原则,即基本可用、软状态、最终一致性,在事务支持上相对较弱。


安全性:数据安全性是评判数据库的重要维度之一。随着云计算、大数据等新技术在数据库领域逐步应用,安全性的概念也不断延伸,不仅包括容灾能力,还包括数据安全、数据协同的权限管控等方面。


成本:成本包括硬件成本、软件成本、运维成本等。云数据库通过云模式降低了运维成本及硬件采购成本。此外,随着分析场景的丰富,在评判数据库成本时应该采取动态的视角,考虑包括弹性扩容成本、后续运维成本在内的各项成本。



维度五:落地情况。中标客户行业&应用场景


关注数据库的落地情况。不同行业对数据库的需求有所区别,处理事务的复杂性、对安全稳定的要求、付费意愿均会产生不同。一般来说,金融、电信类场景由于处理量大,宕机代价较高,因此对于安全、稳定性有较强的诉求,能够首先在金融、电信类场景落地通常意味着在性能、安全等方面达到了较高的标准;因此金融、电信等领域落地情况可以大致作为数据库安全、稳定性的筛选维度之一。此外,金融、电信、互联网类场景往往具备高并发特征,需要不断扩展,并且往往能够积累下大量数据,为分析打下了良好的基础,适合分布式数据库,因此分布式数据库的选择可以重点关注以上行业的案例。在此之外,能够积极向其他场景延伸则体现出数据库产品的延伸性,有助于不断打开新的市场空间。从国内分布式数据库当前的落地情况看,金融、党政、电信也是目前主要的落地场景,除此之外,互联网、电力能源、教育也是重要的落地场景。



图表37:代表客户及覆盖行业

数据库:分布式数据库•新变量_java_38



维度六:公开的人才体系。自营培训认证体系、企业技术级社区


公开人才体系体现生态建设成效。公开的人才体系包含自营社区、培训认证等部分。数据库厂商推出培训认证,系统的培养厂商数据库人才,在提升数据库人才水平的同时培养了使用者的使用习惯,有助于生态的建设。另一方面,通过自营社区论坛,能够提供开发者交流的空间,有助于使用者拓展技术前沿视野,在提升使用者水平的同时,促进技术生态发展,一定程度上社区论坛的活跃度能够反映数据库的生态建设成效。



图表38:国产数据库厂商公开人才体系

数据库:分布式数据库•新变量_java_39



图表39:商用首发及行业重要协议发布时间对比

数据库:分布式数据库•新变量_java_40




图表40:数据库比较维度

数据库:分布式数据库•新变量_java_41



总结:分布式数据库,或诞生新龙头



1、计算场景扩展,分布式数据库或成为新增量

数据库行业发展与计算载体变革紧密相关,而随着计算载体的变革,在新市场内往往会诞生新的数据库龙头。从发展变革看,大型机向小型机的变革,数据库在事务处理中的应用逐步增加,催生了Oracle为代表的关系型数据库厂商;随着云计算的兴起,以AWS为代表的新兴数据库厂商逐步兴起。


分布式数据库或成为新的增量。随着数据的累积,分析型任务的重要性逐步提升,擅长于事务支持、结构化数据查询的传统关系型数据库市场增长逐渐放缓,据T4.ai预测,全球关系型数据库市场规模2018-2022E CAGR为6%,较2012-2017的11%或将有所下降。另一方面,数据类型持续丰富,从结构化数据向非结构化数据延伸,支持非结构化数据的查询方法变得日益重要。而分布式数据库、数据仓库在大数据分析中展现出了较好的支持性。综上,我们认为,分布式数据库或成为数据库领域新增量。关注:巨杉数据库(SequoiaDB)、PingCAP (TiDB)、OceanBase,OpenGauss等



2、内核基础:自主研发能力重要性上升

原厂自研在稳定性上具备优势。原厂自研的数据库厂商能够提供企业级原厂服务,相比于提供第三方服务的厂商,更有助于从源头解决问题,在安全性和稳定性上具备优势。在功能的迭代上,掌握源代码的自研厂商能够主导功能的迭代,相较于开源社区,在稳定性上更有优势,与企业级客户的需求更为契合。



3、企业级产品&开源社区:核心在于解决客户问题

数据库作为基础软件,在IT架构中扮演承上启下的重要作用,因此相比于功能的快速更新,数据库的安全与稳定性更为重要。开源社区有助于快速积累用户,而企业级产品通过更加紧密的组织方式,保障了开发者的响应速度,在提供企业级服务方面具有优势。

https://mp.weixin.qq.com/s/sl0tU1l7LferP8feuvLDUQ