1. 通报 && 通报 && 通报
先通报给Leader;然后Leader视需要,通报给相关业务方
为什么要先通报?第一,如果是一个严重的问题,Leader可能能帮你调集更多的资源、人手帮你解决这个问题;
其次,如果对我们业务造成影响,我们可能需要去通知、安抚我们对口的业务方(比如SEM投放,比如电话销售团队、评估师、销售等等),尽量减少损失、给他们我们修复的预期。
2. 先解决问题;先解决问题;先解决问题
我们是一个团队。“团队”和“团伙”的区别,在于凝聚力、在于信任、协作、补位,去完成艰巨的任务。
当出问题的时候,第一时间,我们不要去追究谁的责任,也不要因为这个模块/业务不是我负责就坐视不理。线上服务,是我们每一个人的事。
“谁都不是一座岛屿,自成一体;每个人都是那广袤大陆的一部分.如果海浪冲刷掉一个土块,欧洲就少了一点;如果一个海角、如果你朋友或你自己的庄园被冲掉,也是如此.任何人的死亡都使我受到损失,因为我包孕在人类之中.所以别去打听丧钟为谁而鸣,它为你敲响” —— 海明威引用过的一首诗
我们的成就,我们的损失,首先都是作为“团队”得到的,而不是“个人”;每一个流量、每一个线索、每一个数据错误,损失的都是你的一部分。所以,当出问题的时候,请不要问是谁的责任、不要责怪战友,请挺身而出、作为团队的一份子积极面对,先解决问题。
3. 既往不咎 && 纵情向前
最近看写谷歌的《如何定义团队》,谷歌有一个“百万美元俱乐部”,会员不是百万富翁,都是给谷歌百万美元以上损失的人。百万!美元!那又怎样?他们也没有被谷歌开除。
世界上只有一种人不犯错,那就是不做事的人。No 上线, No bugs。做事越多的人,出错的可能性越大。
我们是一家创业公司,我们的业务在飞速发展,我们线上产品技术以超音速在迭代上线,我们在与时间赛跑,我们要短期内做出卓尔不凡的成就。那我们一定会犯错。
创业,一定对错误宽容。
真正需要思考的,是我们如何避免类似的错误;而且作为一个团队,我们后续如何系统的、有组织的去避免类似的问题。不光是我们自己,也包括团队的其他人、后来者,如何也能够系统性的避免类似问题。
case study的要义,并不是,“某人”出了“事故”,“某人”需要“反省”;case study的要义是,线上的损失,即是我们每一个人的损失,是跟你、跟我、跟每一个人有关的。每个人需从自己的所在出发,看是否有系统的手段,规避该问题、乃至规避类似问题。
从工具、系统、流程、意识、技术,各个层面,系统性的去解决类似问题。做一个“学习型组织”,能看到组织的学习、进化,作为一个整体去避免类似问题。
这是我们痛定思痛以后,需要深入去思考的。
我们对错误宽容,但是请不要重复错误。核心,是如何避免再出现类似问题。
四、事故处理时间提醒表关键时间点 | 提醒事项 |
5分钟内 | 向上通报 |
15分钟内 | 以电话或钉钉形式通知主管及可能受影响的产品线。 |
当天 | 发出事故报告(包括精确到分钟的时间线,精确的PV/UV、线索、金钱等损失) |
7个自然日内 | 召集case study,完成case study报告 |
- 服务级别: 各服务所属的服务级别,依据RD、PM、OP共同签署的SLA确定。
- 事故级别定义: 以服务级别和影响程度来定义事故级别。
- 定级是每次事故后, 第三方来定。损失一般指经济损失, 影响是, 多少人不能使用。 投诉量是体现使用者对事故的忍耐程度
一级服务事故级别 | 一般事故 | 严重事故 | 重大事故 | 特大事故 |
对外完全停止服务时间 | 1-3分钟 | 3-10分钟 | 10-30分钟 | 30分钟以上 |
服务部分故障导致的流量损失占单日总流量比 | 0.15%-0.45% | 0.45%-1.5% | 1.5%-4.5% | 4.5%以上 |
服务功能异常或严重影响用户体验,受影响访问量占单日总流量比 | 3%-9% | 9%-30% | 30%-90% | 90%以上 |
更新延迟或数据错误 | 延迟1-2小时 | 延迟2-12小时 | 延迟超过12小时 | 更新延迟超过12小时且无法恢复 |
收入损失 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% |
二级服务事故级别 | 一般事故 | 严重事故 | 重大事故 | 特大事故 |
对外完全停止服务时间 | 5-10分钟 | 10-30分钟 | 30-60分钟 | 60分钟以上 |
服务部分故障导致的流量损失占单日总流量比 | 0.75%-1.5% | 1.5%-4.5% | 4.5%-9% | 9%以上 |
服务功能异常或严重影响用户体验,受影响访问量占单日总流量比 | 15%-30% | 30%-90% | 90%-180% | 180%以上 |
更新延迟或数据错误 | 延迟1-2小时 | 延迟2-12小时 | 延迟超过12小时 | 更新延迟超过12小时且无法恢复 |
收入损失 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% |
三级服务事故级别 | 一般事故 | 严重事故 | 重大事故 | 特大事故 |
对外完全停止服务时间 | 10-30分钟 | 30-60分钟 | 60分钟以上 | 不适用 |
服务部分故障导致的流量损失占单日总流量比 | 1.5%-4.5% | 4.5%-9% | 9%以上 | 不适用 |
服务功能异常或严重影响用户体验,受影响访问量占单日总流量比 | 30%-90% | 90%-180% | 180%以上 | 不适用 |
更新延迟或数据错误 | 延迟6-12小时 | 延迟12-24小时 | 更新延迟超过24小时且无法恢复 | 不适用 |
收入损失 | 0.2% ~ 0.5% | 0.5% ~ 1% | 1% ~ 3% | >3% |
注 收入损失:以最近季度财报中总营收/90计算为单日平均营收,收入损失阈值以单日平均营收百分比计算