2018627日,某云数据库故障,起因:运维操作失误触发未知bug

2018717日,某云管理控制台间歇性失灵;

2018718日,某云平台全局负载均衡服务发生中断;

2018720日,某云北京三区云硬盘IO异常,某创业公司数据全部丢失且无法恢复。

2018724日,某云广州一区主备两条网络链路同时中断。

 难道我们就是那0.0000001%_备份

最近各大公有云故障频发,朋友圈又是哀嚎一片。面对宣传时说提供达 99.95 %的服务可用性和 99.9999999% 的数据可靠性,出现故障时,我们就是那0.0000001%

 

这些事故告诉了我们一个几乎无法规避的现实,那就是最优秀的云也会宕机,也会丢失数据。虽然云计算提供了各种数据保护措施,但是依旧面临诸多挑战:数据安全、网络连接以及数据备份等。让我们不得不去反思面对这样的不确定,我们应该怎么办?

 

1、对于普通业务,进行最低级别保护

采用云主机快照+数据库主从配置+数据库异地备份的方式,保障核心数据。

难道我们就是那0.0000001%_云交换_02


1)云主机快照功能,对块存储的数据备份,当磁盘数据出现问题时,可以快速回滚。

2)数据库主从配置,解决单点问题,当主库不可以用时,从库接管服务。

3)数据库异地备份,通过互联通云专线将数据库数据备份到异地数据中心,解决逻辑或者公有云其他因素导致的数据丢失等风险。

 

2、对于高可靠业务,进行高可用部署

将业务分别部署在同城不同数据中心。采用跨可用区的应用架构设计,让应用服务轻松具备同城容灾能力。

难道我们就是那0.0000001%_云交换_03

1)当公有云故障时,利用DNS进行域名的快速切换,将业务流量导向灾备中心,确保业务的可持续性

2)将数据库的主库和从库分别部署。当主库所在公有云不可用时,可以快速切换到从库所在灾备数据中心,确保数据库持续可用。

3)利用互联通云专线,可以将公有云和容灾数据中心实现私网IP互通,形成一张逻辑二层网,进行统一管理。

互联通云专线服务,是通过建立IDC与公有云之间的高速传输通道,为客户提供高速、稳定、安全的云专线接入,构建云网一体化。

难道我们就是那0.0000001%_备份_04