1. 通报 && 通报 && 通报

先通报给Leader;然后Leader视需要,通报给相关业务方

为什么要先通报?第一,如果是一个严重的问题,Leader可能能帮你调集更多的资源、人手帮你解决这个问题;

其次,如果对我们业务造成影响,我们可能需要去通知、安抚我们对口的业务方(比如SEM投放,比如电话销售团队、评估师、销售等等),尽量减少损失、给他们我们修复的预期。

 

2. 先解决问题;先解决问题;先解决问题

我们是一个团队。“团队”和“团伙”的区别,在于凝聚力、在于信任、协作、补位,去完成艰巨的任务。

当出问题的时候,第一时间,我们不要去追究谁的责任,也不要因为这个模块/业务不是我负责就坐视不理。线上服务,是我们每一个人的事。

谁都不是一座岛屿,自成一体;每个人都是那广袤大陆的一部分.如果海浪冲刷掉一个土块,欧洲就少了一点;如果一个海角、如果你朋友或你自己的庄园被冲掉,也是如此.任何人的死亡都使我受到损失,因为我包孕在人类之中.所以别去打听丧钟为谁而鸣,它为你敲响”  —— 海明威引用过的一首诗

我们的成就,我们的损失,首先都是作为“团队”得到的,而不是“个人”;每一个流量、每一个线索、每一个数据错误,损失的都是你的一部分。所以,当出问题的时候,请不要问是谁的责任、不要责怪战友,请挺身而出、作为团队的一份子积极面对,先解决问题。

 

3. 既往不咎 && 纵情向前

最近看写谷歌的《如何定义团队》,谷歌有一个“百万美元俱乐部”,会员不是百万富翁,都是给谷歌百万美元以上损失的人。百万!美元!那又怎样?他们也没有被谷歌开除。

世界上只有一种人不犯错,那就是不做事的人。No 上线, No bugs。做事越多的人,出错的可能性越大。

我们是一家创业公司,我们的业务在飞速发展,我们线上产品技术以超音速在迭代上线,我们在与时间赛跑,我们要短期内做出卓尔不凡的成就。那我们一定会犯错。

创业,一定对错误宽容。

真正需要思考的,是我们如何避免类似的错误;而且作为一个团队,我们后续如何系统的、有组织的去避免类似的问题。不光是我们自己,也包括团队的其他人、后来者,如何也能够系统性的避免类似问题。

case study的要义,并不是,“某人”出了“事故”,“某人”需要“反省”;case study的要义是,线上的损失,即是我们每一个人的损失,是跟你、跟我、跟每一个人有关的。每个人需从自己的所在出发,看是否有系统的手段,规避该问题、乃至规避类似问题。

从工具、系统、流程、意识、技术,各个层面,系统性的去解决类似问题。做一个“学习型组织”,能看到组织的学习、进化,作为一个整体去避免类似问题。

这是我们痛定思痛以后,需要深入去思考的。

我们对错误宽容,但是请不要重复错误。核心,是如何避免再出现类似问题。

四、事故处理时间提醒表

关键时间点

提醒事项

5分钟内

向上通报

15分钟内

以电话或钉钉形式通知主管及可能受影响的产品线。

当天

发出事故报告(包括精确到分钟的时间线,精确的PV/UV、线索、金钱等损失)

7个自然日内

召集case study,完成case study报告

五、产品线事故级别定义
    • 服务级别: 各服务所属的服务级别,依据RD、PM、OP共同签署的SLA确定。
    • 事故级别定义: 以服务级别和影响程度来定义事故级别。
    • 定级是每次事故后,  第三方来定。损失一般指经济损失,  影响是, 多少人不能使用。   投诉量是体现使用者对事故的忍耐程度

一级服务事故级别

一般事故

严重事故

重大事故

特大事故

对外完全停止服务时间

1-3分钟

3-10分钟

10-30分钟

30分钟以上

服务部分故障导致的流量损失占单日总流量比

0.15%-0.45%

0.45%-1.5%

1.5%-4.5%

4.5%以上

服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

3%-9%

9%-30%

30%-90%

90%以上

更新延迟或数据错误

延迟1-2小时

延迟2-12小时

延迟超过12小时

更新延迟超过12小时且无法恢复

收入损失

0.2% ~ 0.5%

0.5% ~ 1%

1% ~ 3%

>3%

二级服务事故级别

一般事故

严重事故

重大事故

特大事故

对外完全停止服务时间

5-10分钟

10-30分钟

30-60分钟

60分钟以上

服务部分故障导致的流量损失占单日总流量比

0.75%-1.5%

1.5%-4.5%

4.5%-9%

9%以上

服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

15%-30%

30%-90%

90%-180%

180%以上

更新延迟或数据错误

延迟1-2小时

延迟2-12小时

延迟超过12小时

更新延迟超过12小时且无法恢复

收入损失

0.2% ~ 0.5%

0.5% ~ 1%

1% ~ 3%

>3%

三级服务事故级别

一般事故

严重事故

重大事故

特大事故

对外完全停止服务时间

10-30分钟

30-60分钟

60分钟以上

不适用

服务部分故障导致的流量损失占单日总流量比

1.5%-4.5%

4.5%-9%

9%以上

不适用

服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

30%-90%

90%-180%

180%以上

不适用

更新延迟或数据错误

延迟6-12小时

延迟12-24小时

更新延迟超过24小时且无法恢复

不适用

收入损失

0.2% ~ 0.5%

0.5% ~ 1%

1% ~ 3%

>3%

注 收入损失:以最近季度财报中总营收/90计算为单日平均营收,收入损失阈值以单日平均营收百分比计算