如果问系统管理员什么是最令其担心的问题,十有八九会说是系统宕机,这一点对业务中断忍受度极低的金融行业来说尤为如此。随着数字化转型的进一步推进,越来越多的企业业务依赖IT技术,IT系统宕机极易导致企业的瘫痪,造成的影响和损失不可估计。
对于IT团队来说,即便尽全力也几乎不能保证系统100%正常运行,只能通过规划冗余以尽可能地保持更多的正常运行时间。
实际上与几年前相比,现在的软件更具弹性,无论是商业软件还是开源软件出问题的几率都比较小,出了问题管理员也可以通过使用虚拟机、配置和编排以快速恢复正常运行。
系统宕机最常见原因不再是设备或应用程序故障,而是人为因素,即系统管理员的错误操作。随着企业更多地部署虚拟化及采用公共平台,现代企业IT变得越发复杂,这导致了人为错误的增加。且很多管理员仍在使用命令行界面,和系统情况变更之间没有任何把关。这样即便管理员操作正确,在复杂环境中也可能造成极大影响,诸如其指令可以解决当下的问题,但调用资源可能会与数据访问产生冲突而导致其他工作负载问题。
在此种情形下,采用自动化以减少人为错误显得弥足重要。比如创建可运行脚本库,可重复授权使用这些脚本;此外,使用编排系统不仅可以调配脚本,也可以调配修补程序,对于部署混合云的企业可以采用编排工具以帮助自动化和管理。
除人为错误外,网络攻击也会导致非计划性系统宕机。DDoS攻击能拖垮服务、恶意软件会导致数据损坏和系统停机,而臭名昭著的勒索软件则更为棘手,一旦中招会加密企业数据。对此,企业可采取安全供应商提供的安全产品和保护服务来提高系统安全性,从而避免系统宕机。