阿里专有云断电有多复杂？

原创

大数据和云计算技术 2021-07-14 12:47:57 ©著作权

©著作权归作者所有：来自51CTO博客作者大数据和云计算技术的原创作品，请联系作者获取转载授权，否则将追究法律责任

下面这个大卡车就是阿里2017在杭州的云栖大会发布的专有云。这个卡车号称最大能力可以处理500万TPS业务。

阿里专有云断电有多复杂？_阿里专有云

阿里云副总裁李津在现场演示了阿里云专有云断电，我们从技术上角度来看看实现这个有多复杂（阿里没有公布具体的实现，只能根据作者从业经验推断分析）。

讲技术前，扯点其他的：

首先我觉得这个创意挺不错，虽然有点类似AWS/Google。AWS 在2016 re:invent 就开了一辆卡车到大会主席台，主要是可以帮助客户一次性搬迁EB数据，相当于整个数据中心。阿里不完全一样，是个私有云的概念。类似的数据中心集装箱Google很早也提过。但是现场演示断电还是首创，从参会的媒体的报道来看，还是引起了很多话题。

阿里专有云断电有多复杂？_阿里专有云_02

另外，从中可以看出，阿里已经决心进入私有云和专有云，去拓展大型客户。以前阿里上客户的互联网、创新业务比较多。阿里积累到一定程度之后，进入中大型客户，赚取更高额的利润的决心变大。要做到这一点，当能需要满足中大型客户的诉求，可掌控，够安全，够稳定。

下面回到这次演练来，演练选取一个模拟的比较简单的业务，记录跑步者的各项数据（心跳，速度等等），排名显示在大屏幕上，一共涉及四个服务SLB、RDS、ECS、OSS，演示的内容就是断掉其中的一个柜服务器（从演示来看，一共是6个柜，每个柜8台服务）业务不受影响，来体现灾备能力。

阿里专有云断电有多复杂？_阿里专有云_03

实事求是的说，做一个可靠的专有云还是有不少工作要做的，从硬件到软件都要考虑相应的冗余灾备设计。比如服务器本身要双电源，网络要冗余，上层基础软件要能自动切换，相关告警检测能力都需要有。

不过这次演示的业务比较简单，直接断掉一框服务，考验的主要是服务的业务切换能力。涉及的几个服务SLB、RDS、OSS本身都是有分布式能力，ECS上装应用，应用也比较简单，主要就是个显示展现，可以直接无状态分布。

SLB：负载均衡，负责将业务分发到有处理的能力的服务器；本身一般是主备容灾。

RDS：通过多实例分布式部署，数据库自动同步能力。每个跑步者的数据是相互独立的，一个实例挂了之后，其他实例接管业务。

OSS：对象存储本身都是分布式多份冗余。

ECS：应用无状态分布，数据都存在RDS里面。跑步者的数据出错，进行重传和重连即可。

总的来说，业务很简单，演示的技术也都是成熟技术。

上一篇：华为EI上线新服务，让企业快速引入搜索服务

下一篇：Docker/K8S再学习

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯