下面这个大卡车就是阿里2017在杭州的云栖大会发布的专有云。这个卡车号称最大能力可以处理500万TPS业务。

 

阿里专有云断电有多复杂?_阿里专有云

 

阿里云副总裁李津在现场演示了阿里云专有云断电,我们从技术上角度来看看实现这个有多复杂(阿里没有公布具体的实现,只能根据作者从业经验推断分析)。

讲技术前,扯点其他的:

首先我觉得这个创意挺不错,虽然有点类似AWS/Google。AWS 在2016 re:invent 就开了一辆卡车到大会主席台,主要是可以帮助客户一次性搬迁EB数据,相当于整个数据中心。阿里不完全一样,是个私有云的概念。类似的数据中心集装箱Google很早也提过。但是现场演示断电还是首创,从参会的媒体的报道来看,还是引起了很多话题。

阿里专有云断电有多复杂?_阿里专有云_02

另外,从中可以看出,阿里已经决心进入私有云和专有云,去拓展大型客户。以前阿里上客户的互联网、创新业务比较多。阿里积累到一定程度之后,进入中大型客户,赚取更高额的利润的决心变大。要做到这一点,当能需要满足中大型客户的诉求,可掌控,够安全,够稳定。

下面回到这次演练来,演练选取一个模拟的比较简单的业务,记录跑步者的各项数据(心跳,速度等等),排名显示在大屏幕上,一共涉及四个服务SLB、RDS、ECS、OSS,演示的内容就是断掉其中的一个柜服务器(从演示来看,一共是6个柜,每个柜8台服务)业务不受影响,来体现灾备能力。

阿里专有云断电有多复杂?_阿里专有云_03

实事求是的说,做一个可靠的专有云还是有不少工作要做的,从硬件到软件都要考虑相应的冗余灾备设计。比如服务器本身要双电源,网络要冗余,上层基础软件要能自动切换,相关告警检测能力都需要有。

不过这次演示的业务比较简单,直接断掉一框服务,考验的主要是服务的业务切换能力。涉及的几个服务SLB、RDS、OSS本身都是有分布式能力,ECS上装应用,应用也比较简单,主要就是个显示展现,可以直接无状态分布。

SLB:负载均衡,负责将业务分发到有处理的能力的服务器;本身一般是主备容灾。

RDS:通过多实例分布式部署,数据库自动同步能力。每个跑步者的数据是相互独立的,一个实例挂了之后,其他实例接管业务。

OSS:对象存储本身都是分布式多份冗余。

ECS:应用无状态分布,数据都存在RDS里面。跑步者的数据出错,进行重传和重连即可。

总的来说,业务很简单,演示的技术也都是成熟技术。