【转“SRE说”公众号】,写的挺好的。

年底故障崩发

年底了各大公司争相登上热搜,阿里崩完,滴滴崩,滴滴崩完,腾讯崩;年底了各大互联网出现故障,为什么年底是一个故障高发期呢,简单说一下我的理解,年底了各大公司准备冲击KPI,变更操作是非常多,降本裁员带来的后果也会在陆续凸显,各种老员工开始离职。     

故障给我的启示    

1 越是重大的故障越是底层,比如网络机房;基础服务比如用户服务、k8s、数据库等等;

2 越是重大的故障越是简单,一个非常简单的误操作,一个非常不起眼的操作;  

3 外表看起来非常牛逼的技术并不能避免故障,只要加踏实地把简单的事情做扎实;

4 需要一些兜底的操作,像vip用户信息这里明显看到端上是没有任何缓冲的,一旦出问题很难第一时间处理,如果有个预案就是可以让用户的vip信息在端上默认延长1小时直接降级,应该是可以解决很大的问题。