巨杉数据库 CTO 王涛：新一代分布式数据库

转载

mob604756fa96d7 2021-06-06 21:22:00

文章标签 Jav 文章分类 Java 后端开发

数据技术嘉年华数据和云

2019数据技术嘉年华于11月16日在京落下了帷幕。大会历时两天，来自全国各地上千名学术精英、数据库领袖人物、数据库专家、技术爱好者在这里汇聚一堂，围绕“开源 • 智能 • 云数据－自主驱动发展创新引领未来”的大会主题，共享"开源自研，云和数据，智能运维，智能业务，数据前沿，用户实践"六大主题盛宴。

在此小编为大家精心准备了“2019数据技术嘉年华——大咖演讲系列整理”，没来参会的朋友们，可以通过我们的系列报道，了解在本次大会中最新的数据行业资讯。爱好技术的朋友们不可错过哦~

本文是小编依据王涛老师在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。
关注公众号“数据和云”，回复：2019dtc ，更多精彩ppt等你下载！（PPT还在不断更新当中，请持续关注）
巨杉数据库 CTO 王涛：新一代分布式数据库_Jav

SequoiaDB 巨杉数据库 CTO
各位尊敬的领导、各位专家，大家早上好！今天非常荣幸能够参与这次“2019数据技术嘉年华”大会，我是巨杉数据库的CTO 王涛，今天我汇报的主题是：“新一代分布式数据库”。
分布式数据库也并不是最近几年刚兴起的词语，我自己原来做IBM DB2的，可能很多人不知道DB2是支持分布式事务的关系型数据库。IBM DB2从上世纪90年代开始做分布式数据库，同时也支持分布式事务。
先来回顾一下整个数据库的行业是怎样发展的，当前整个数据库的行业分布是什么样的。从数据库的发展史来看，大家都知道关系型数据库并不是最古老的数据库，它从上个世纪70年代发展而来，这之前有IBM类似网状或者层次性的数据库，到了70年代IBM研究员发表了关系型数据库的论文才促成第一款关系型数据库Oracle的诞生。关系型数据库作为一个巨无霸，像Oracle、DB2一统江湖到了现在。就像现在很多新型数据库，包括我们也都开始支持分布式的事务，比如说MongoDB这一类也在开始支持分布式的交易，向很多事务型数据库靠拢。
在几十年过程当中，我们发现除了软件本身之外最大的变化是硬件。从最开始的大型主机到90年代的小型机，直到现在大家使用PC服务器做部署，数据库发展和硬件发展息息相关绑在一起。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_02

数据库行业的技术发展路线

随着金融业务的移动互联网化和智能化，传统数据库已经无法应对数据量大、系统架构僵化及成本过高等诸多问题。与此同时，这些问题的存在也成为推动传统业务向分布式架构转型的驱动力。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_03

分布式架构转型的驱动力

所以我们认为分布式数据库当前要解决的问题，它的目标是什么？它有两个目标：第一是要解决数据的弹性扩展，一个机器存不下用十个机器来存；第二，我们认为微服务的应用架构中，它所面临的严重的数据碎片化的问题，过去用一个数据库搞定的事现在用一百个数据库，怎么管理怎么使用这些数据库。
当前数据库的业界有几种做法：第一种做法，这种做法最直接、最常规就是应用程序的改造。这样我们对底层数据库使用最传统的类似于Oracle或者DB2传统数据库，从应用程序层面我们把一个紧耦合数据库拆分成上百个服务，这种机制依然存在数据的瓶颈，包括它的数据紧耦合，无法弹性扩张还有单点故障的问题，还有一个连接处极速增加。这样对于传统数据库来讲压力非常大。第二种做法，每一组的微服务对应一个独立的小数据库。往往大家使用像MySQL或者像PG这种数据库来做。这种机制它是能够解决集中式存储的问题，但是会带来新的巨大的挑战，数据的碎片化以及运维非常难的问题。比如这种架构之下，假设上面四个微服务是来自同一个业务它的四个不同的模块，比如一个是用户账户，如果我们现在有一个应用报表需要来看某一个账户相关的登陆请求，我的数据分散多个子的数据库里，我想把它联合的集中起来是非常困难的。

所以我们认为真正的分布式数据库它要做的架构是什么样子？在某种程度，现在很多人说云数据库但我们认为整个思路都是接近的，大家可以看作整个分布式数据库是一个大的资源池，这个资源池里负责的是存储跟事务控制，所有的数据是存储在整个的底座里，但它这个底座之上可以通过创建不同类型的数据库实例满足上面多种业务需求。这个是我们认为分布式数据库它的整体的设计思路就是计算、存储、分离，整个计算层在上面的实例层，底下存储层负责数据本身存储和分布式事务。 巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_04

数据库如何应对微服务应用框架

说到分布式数据库本身，我们再看一下分布式数据库的业界都有几种玩法。首先，第一种玩法也是我们最经典的玩法，那就是所谓的应用程序的分库分表，某种程度上我们不能说这是分布式数据库，而是说一种分布式应用的开发策略。但也带来数据的极大碎片化，数据无法整合。第二种做法，原生数据库分布。不管像巨杉还是高斯还是阿里都是使用类似的架构，其本质就是在数据库原生层面按照分布式策略来进行设计，所有代码是完全自研的。还有一种是，垂直分库。
就这三种架构，我做了一个简单的对比，这是我自己总结的一些东西，供大家参考一下。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_05
分布式数据库技术发展体系对比

说到分布式数据库，大家真正所关心的是什么？还是交易。我们现在再说分布式数据库，大家所指的都是分布式的交易型数据库。我们认为在评价一个新型分布式数据库有两大维度、六个技术的方向。两大维度分别是传统技术兼容性和新技术的前瞻性。我们使用新产品时，对于传统机器兼容性还是十分看重的，不可能抛弃所有应用开发框架，再重新起一套东西。新技术的前瞻也一样，既然是新的一种技术，自然要和分布式弹性扩展云服务结合起来，所以这块我们又列出了六个特性（六个维度）：第一，ACID的支持。第二，SQL完整支持。第三，安全性。第四，分布式与扩展性。第五，HTAP。第六，云与多租户。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_06

交易业务需要什么样的分布式数据库

我大概来介绍一下，巨杉数据库的设计过程当中，我们的理念是在什么地方。我们把整个的数据库分成两层，第一层是数据库的实例层，整个集群对外体现的是一个一个的不同的数据库实例，比如有MySQL实例、PG实例，还有非结构化的实例；第二层我们叫做分布式存储层，所有数据存储，所有事务交易都是在存储层来做的。
说到分布式交易型数据库，大家肯定关心事务。对于事务来讲我们使用的是二段提交机制，像刚才讲到的，我们过去在IBM DB2从上世纪90年代就涉足分布式的事务。我们在二段提交基础上做很多创新和改良，比如当你做提交时会有时间窗，如果时间窗发生故障需要做手动操作，可以做到自动事务恢复并且保证事务完整性。

巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_07

强大的分布式事务能力

我们跟MySQL的兼容性，对于MySQL来讲，我们是可以保证是在语法层面和MySQL有一个百分之百的兼容。对于用户在MySQL上开发的应用，基本上可以做到不用改，拿过来直接运行。我们现在有很多客户应用直接从MySQL或者PG上迁移过来，我们在数据库集群里创建MySQL兼容实例和PG兼容实例就可以满足这一点。

巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_08

MySQL兼容能力

下面，再简单介绍一下我们现在都有哪些场景在使用。首先，我给大家几个数字，银行是我们主要服务的行业，我们现在在银行生产环境最大的单集群超过2PB存储量，单集群超过5440亿条记录存储，整个单一集群141台物理服务器，81个应用连接在上面，我们认为作为新型分布式数据库在一个银行级别的生产环境里能够有这种类型的集群，相对比较少见。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_09
金融级应用数据领先

我们整个技术方向是来自于IBM DB2作为最核心的底层工程师，同时我们结合了业界分布式云数据库理念来构建一个分布式数据库。我们所服务应用场景，主要是集中在四个场景：核心交易、数据中台、内容管理、实时数据服务。我们在银行里主要应用场景也是围绕这四类的。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_10
规模应用场景，覆盖全维度金融级数据应用
Gartner是国际比较权威的咨询机构，我们17年Gartner首次把中国数据库纳入他们的评估列表里，17年我们首次和阿里云作为中国数据库纳入到他们的列表里。我们也是连续三年入选Gartner。巨杉数据库 CTO 王涛：新一代分布式数据库_Jav_11
海内外业界认可

最后我说一下SequoiaDB 3.4新版本。在这个版本里面，我们在数据库的实例、数据库引擎和大对象引擎的三个领域进行了很大的提升。欢迎大家下载！