事后执行方法 JAVA 事后处理阶段

转载

mob64ca1402665b 2023-11-08 21:33:06

文章标签 事后执行方法 JAVA DevOps 无指责的事后总结会时间轴正常运行 文章分类 Java 后端开发

我们谈论沟通的重要性，但有时这似乎是一个模糊的话题，并不受到重视。因此，在本节中，我们将深入探讨与DevOps相关的两个非常具体的沟通关键方面：1没有指责的事后会议，2 服务时间透明化。现在处理这两项活动需要比平常更好的沟通技巧，因为它们经常不经意时发生。在客户受到重大停电影响后的24小时或48小时内，我们应该进行事后处理，快速解决问题，这有助于保持与客户的合作关系稳定。

在准备事后总结会议的过程中，最好让团队里每一个人协作建立一个事故发生的时间轴，而不是只安排一个领导来主持事后领责会议。开这种会议，要避免直接造成这个事故的人员参与会议，不然这个人开会过程会变得很尴尬和不适。在开始这个会议之前，建议团队所有人员尽可能多填写这个事故发生时间轴，要求是按照发生的顺序进行客观记录发生事件，覆盖整个过程。事后总结会的特点是这样的：1）就是一个普通会议，不要变成背锅会议 2）尽可能在事故发生48小时内组织会议 3）需要邀请第三方参与（现实中可能是客户）

会议应该让团队知道我们不是来指责某个人，相反，我们试图阻止类似事件在将来某些时候继续发生。重要的是每次事后总结会议之后都达到了每个人的期望。商定好讨论范围和分析事故根本原因是同等重要。你需要分析和讨论到这个事故发生的可能的各种原因。

此外，确保组内每一个人都在同一个层面上去修复这个事故所做出努力。停止不前的诱惑的确很大，但是这个时候就是你们改变和提高以及学习的时机。检查项目时间轴，确保每个人都放在项目里的正确位置，不能有些人忙死，有些人没活干。一定要讨论这个事故给客户带来了那些不好的影响和损失。最后，你肯定想问，如何在未来的项目中尽快找出类似的问题。我们都知道，软件有bug是很难避免的。我们应该优化我们的测试手段和策略，加快事故响应速度，尽可能缩短由于事故带来的宕机时间，而不是思考如何优化软件，防止事故发生

最后一步是建立保证机制或实际操作项，这些应该包括新的监控服务或测试覆盖甚至修复环境手段。记录这些并让会议中的每个人了解和明确。在SAS产品的世界中，当您的网站或应用或服务出现故障时，它会对用户产生巨大影响。透明的正常运行时间意味着当我们与客户互动时，我们会在停电期间尽可能地与他们进行沟通。在Transparent Uptime博客中，Lenny Rachitsky给出了他建议作为透明正常运行时间的先决条件的四点。

首先，承认失败。客户对你有停机时间并不感到惊讶，真的可以失败，但隐瞒起来并不好。第二，人的责任。获得公司层听取的回应并非真正的道歉，这是很常见的。需要真实地和真诚与客户交谈，避免在道歉时重复官方说辞。第三，有一个沟通渠道。确保您的客户了解它。确保它已更新，最重要的是，确保它是对外的。第四，最重要的是，是真实的。在发生停电的那一刻，和客户保持沟通是一个很好的办法，也很难做到，因为需要忙着处理事故。你的团队人员，需要了解客户手头上最重要的问题并尽可能及时处理和恢复服务。

无指责的事后总结会和服务期间的透明化是两个很重要的因数，在管理你的团队和建设信任方面。

Ps：关于无指责的事后会议，在我过往工作经历中，确实发生了不好的事情。我们服务的客户发布了新版本，但是有一个设备出现输入问题。事后召开了总结会议，负责测试的女同事压力很大。最后才知道她怀孕了，过了一段时间，人家老公和公司打官司，胎儿流产，没保住。现在看来，确实不应该让这个人参与事后总结会议，以及项目管理和公司处理都有问题。

事故发生时间轴，简单一个例子。如果发生服务器宕机或者服务不可访问，例如HTTP 500错误，建立这样一个时间轴，很有必要和好处。可以很清楚看到整个时间发生前后所有事情和补救措施。如果没有这个准备，你的老板问你，发生了HTTP 500，整个过程你们如何处理？没有一些准备，你怎么去很好回答这个问题。让他看到你们组的努力和解决问题的效率。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。