【背景介绍】
写出该事故发生的场景,步骤,线上,事故等级以及谁发现的问题等相关背景
【发生时间】
写出该事故首次发生或爆出的具体时间,精确到分钟或秒钟
【问题版本】
是哪一个版本,比如 SDK 1.3.4 版本
【事故影响】
该事故对哪些业务产生了影响,是否影响了客户以及可能造成的损失等
【事故原因追踪】
详细说明造成事故的整理过程。这里就比较详细的说明,事故主要责任人再造成该事故前,都做了什么,以及沟通了什么,才导致的这次事故。精确到分钟。
比如,11月23日13点42分 销售急需新版本给客户展示,催促王某某给出新版 APP
11月23日13点50分,王某某和张某某沟通,表示自测没问题
11月23日14点23分,王某某上架新版本,并未与测试沟通表示已紧急上架,测试在不知情下,正常进行测试进度
11月24日11点03分,测试向王某某反馈,表示有明显 crash 问题。
11月25日13点09分,王某某提测,继续修复其他问题。
11月25日17点54分,提测通过。
11月26日9点25分,客户线上反馈,新版本 crash 明显增多。事故发生。
【事故原因】
总结一下事故发生的原因
比如,
1.王某某在测试未通过就发布新版本
2.测试提出有crash时,王某某在明知发布新版本同样有问题,并未紧急发布修复。
3.王某某紧急发布前并未与测试沟通,并要求测试紧急加测。
【改进措施】也可以叫【反思处理】
说明一下如果改进来避免此次事故的再次发生。
比如
1.所有发出去的版本,必须要经过测试通过。如果未通过,在紧急也不可发布。可要求测试紧急加测。
2.线上有 crash 严重事故,应在发现后,紧急发布修复版本。
吐槽一下,实习期间很多不懂,造成了严重的线上事故,好在损失不是很大,被领导批评了,复盘的主讲人,人生经历又多了一笔