下午好,我的网工朋友。

昨天,阿里云崩了!这动静闹得够大,热搜、群里、各社交媒体上迅速掀起了讨论浪潮。

虽然昨天傍晚已经陆续恢复正常使用,但到了现在还是话题不断啊。

阿里云,历史级大翻车……_API

单位有在用阿里云的朋友,今天是不是也开会讨论了?

上次语雀崩溃还没到一个月,又现P0事件,简直是“活久见”。

阿里云这次的故障,影响确实大。你怎么看?欢迎探讨


今日文章阅读福利:《网络信息安全应急预案范例》

阿里云,历史级大翻车……_重启_02

这次事件一出,应急预案和安全保障对各大企业来说更重要了。到底要怎么做应急预案,私信我,发送暗号“应急预案”,获取这份学习资源。


01 阿里云严重故障时间线回顾

双11后的第二天,11月12日的下午,突然间,不知道从哪冒出来的一波消息:阿里云出事了,全线产品都崩了!

阿里云,历史级大翻车……_网络工程师_03

随后,先是淘宝商品图片点不开,页面一片漆黑,崩了;网友们再一看,钉钉、咸鱼、阿里云盘,都崩了。

阿里云,历史级大翻车……_重启_04

整个事件的进展也是一波三折,阿里云监控室就像战场一样,各种指挥、紧急处理,工程师们集体加班加点紧急处理。

接下来一起看下事件的时间线回顾:

17:44

阿里云官方发现云产品控制台访问和API调用出现异常,然后就是一系列全家桶服务倒下,形势严峻。

阿里云,历史级大翻车……_API_05

18:14

官方发表声明,表示已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中,对给用户带来的不便深感抱歉。

阿里云,历史级大翻车……_云计算_06

18:54

经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台及API服务逐步恢复中。

19:20

工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。

19:43

异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。

20:12

北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。

21:11

受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。

至此事件基本算是稳定下来,暂告一段落。

这整个过程,影响的服务之多,地域之广,让人咋舌。从华北到华南,再到国际范围,都被这场故障波及。


02 阿里云崩了,这不是第一次

事实上,阿里云这次出事不是第一次了。

早在2018年6月,阿里云就曾经出现过一次持续了将近半小时的重大技术故障。

那时阿里云的官方解释是:因为他们在运维过程中的一个操作失误,导致了一些客户访问阿里云官网控制台和使用部分产品功能出现了问题。

后来2019年3月3日,阿里云又出现了宕机事故。

这个事故让华北很多互联网公司的APP和网站都瘫痪了。阿里云当时也是紧急排查处理,服务也慢慢恢复。后来也有针对事故根据SLA协议处理赔偿事宜。

2022年12月18日,阿里云又发生了香港Region可用区C大规模服务中断的事件,导致很多香港和澳门的站点受到影响。

当时阿里云官方承认,说这是阿里云运营十多年来持续时间最长的一次大规模故障。

结果……2023年11月12日,也就是昨天,又一次出现了全系闪崩的事件。

这么算下来,6年4次大事故,且昨天的事故可以说是刷新了阿里云的最大故障记录。


03 这次的重大故障,你怎么看?


01 网友热评,热闹过后……

事情一出,网友们就开始了讨论浪潮。

关于这次事件,大家也是看法不一,众说纷纭,截几个热评给你看看,感兴趣的朋友可以自行去其他平台围观一番。

阿里云,历史级大翻车……_API_07

阿里云,历史级大翻车……_云计算_08

说实话,这次的故障规模确实大。

一个是受影响的产品太多,上回还只有语雀,这次是几乎涵盖了所有阿里云的服务和功能,从企业级分布式应用服务到数据库、存储、安全、人工智能等各个领域。

再一个是受影响的地域范围之广,阿里云作为知名全球云厂商,客户遍布全球。这次除了中国内地,中国香港、印度、美国、英国等多个国家和地区都是有受影响的。

这种全球性的故障在云计算领域可以说是极为罕见了。

这次的事件,真的没办法抱着看热闹的心态去看,毕竟从各方面来说,没有赢家,各方都很难受。


02 这次事件,影响太广了……

我们再来看看故障问题:

用户无法访问阿里云的控制台和API,甚至连切换流量到其他地方降级的可能性都没有。

这说明用户无法正常使用阿里云的服务,无法管理和监控自己的业务。

这次的事件损失最惨重的还是阿里云,从阿里云的角度来看……

用户对阿里云技术能力和服务质量的质疑,对于阿里云企业的形象打击是很大的。

以及虽然事件已经结束,但后续应对方案,各种压力、质疑、复盘,还有相关的赔偿事宜,够阿里云头疼十天半个月的了。

从企业和个人用户角度来说,这无疑也是一次重大的打击。

在这种情况下,用户的自救能力几乎为零,只能等待阿里云的恢复。

如果又宕机了,企业要怎样应对?是“将鸡蛋分开放在不同篮子”,还是重新制定应急方案规划?又或是直接早点下云?

而从行业的角度来看,这次的事件甚至可能会引起整个云计算行业的动荡。

行业内其实是一直都在宣扬“云计算是大势所趋”、“上云是迟早的事”这样的理论,关于云计算的服务商在百花齐放,近些年各大企业也纷纷诞生了非常多的云相关岗位。

这次事件,必然会让一拨人对云的态度“大打折扣”

当趋势的曲线图开始下滑,观望者还敢不敢尝试上云?已经上云的使用者还敢不敢全部使用云服务?

在行业的大趋势下,近些年学习云计算的网工越来越多,经此一事,大家对于学习云计算的态度还会是积极的吗?

还有对于各大云厂商的影响也不轻。

当然,有的云服务商可以借此机会抢占用户和市场。

但仍然会有部分用户对云失去信任,引起整个行业的用户流失,毕竟他们担心的是厂商所提供服务器的系统稳定性和容灾能力的问题,其他云服务商不见得就更安全。

总得来说,我们作为行内人,还是要从这次的故障中吸取教训。

在这个数字化的时代,云计算行业需要更多的人才,提高云计算的安全可靠性,赢回用户信任,未来才能有更好的发展啊。


原创:老杨丨10年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部