当许多人在节假日进行玩乐,远离工作的时候,数据中心的技术人员却一直在努力确保数据中心以及其代表的一切业务安全无忧。此外,如果确实发生问题,人们要尽快找到问题所在,以便可以采取相应的行动。

为了实现这一目标,数据中心维护需要监控系统、流程和人员。人们可能会认为这一切都是很到位的,但数据中心维护人员什么时候进行的最后一次测试?冗余水平是什么样的?谁拥有代码和备用钥匙?如何知道警报系统失败?将如何管理任何灾难可能降临的数据中心?这些问题都需要明确的答案。

数据中心监控需要夜以继日地持续进行,而不是确认过程记录下来并访问,但他们都知道在保护数据中心需要发挥其作用。这需要时间来检验。而这种军事或航空公司飞行员将通过模拟方式来检验故障,数据中心工作人员的工作也采取同样的方式。他们在节假日随时待命。每个事件都有可能发生,工作人员应该知道要采取的步骤,而如果问题比最初想象的更糟或恶化,并超出工作人员的能力范围的话,工作人员就应该了解更新升级的路径。

毫无疑问,通过单个服务器和集群之间的故障切换测试,可以确保在数据崩溃或硬件故障时,数据中心继续履行所有的服务,但是当数据中心电力中断的故障发生时怎么办?难道切换到发电机,通知工作人员关闭任何不必要的服务器?这些类型的测试应定期进行,而且还应当在正常运行进行连接测试。

最后的想法是,在数据中心正在使用的监控系统中,更具体地说,应该了解它们是如何配置的。现在不是提出更换一个新系统的时候,但重要的是要检查将触发一个动作和警报是什么监测的条件和参数,

人们最好利用节假日这段时间充分评估监控对企业的流程和IT问题“红名单”。大多数人承认,检查警报要选择合适的人。而例如有人两年前离开公司,却仍然管理其监控软件,这是比较常见的。

最后,监控软件将会为工作人员带来好消息。最好每天得到一个报告,知道一切状况都很好,而不是只配置为与坏消息发送警报系统!如果监控系统沉默则让人害怕,因为你甚至是会担心数据中心是否已经消失在一个排水孔中。

在节假日到来的时候,工作人员一定要确保监控系统能够正常运行。