子曰“干的最好就是个60分,稍有纰漏就是不及格”

谈一个事情,最先要谈的就是统一标准,又或者这个标准已经约定俗成,广泛认可,所以就可以略过。对于IT服务质量来说,确实有一个统一的标准,那就是上面的那个子曰:“干的最好就是个60分,稍有纰漏就是不及格”。可悲的是虽然无论基层技术人员、中层管理人员、高层管理人员,甚至是旁观者来说,都不觉得这个标准是非常合理的,但是在实践当中,大家又都不自觉的执行着这个标准。真是有够虐心的。

有一些高速发展的中小型互联网企业,为了保证技术团队的积极性,对运维事故表现出很高的宽容度。但是,这不代表老板心中没有看法,所以实际上标准还是那个“子曰”。

在这种畸形标准的制约下,很多企业(特别是有钱企业)的IT服务管理走向了一条为了表现“已管理”,而进行管理的邪路。其本质原因是,在运维过程中,事故是难以完全避免和杜绝的。但领导的期望又是杜绝事故,那对于中层管理人员和基层技术人员来说,唯一能做的就是让领导相信,“我们把能想到的都做了,再出事那就是天灾人祸”。

说这个问题以前,我想先拿传统企业来做对比。传统企业比较典型的有产品开发部门、生产部门、市场和宣传部门、销售部门、售后维护部门,还有其他一些保证企业运行或发展的平台部门。对于一个以信息化(网上、手机上)服务作为主要业务提供模式的企业来说,和传统企业相关部门的对应关系是,软件开发部门对应到产品开发部,市场宣传部门和销售部门几乎没变(可能营销方式不同),售后部门基本没变,平台部门基本也没变,那么IT运维部实际对应的是传统企业的生产部门。想通这个问题很重要,因为实际上许多企业仍然按照传统的模式,把IT运维部门对应到平台的某个部门当中。平台部门是纯粹的成本部门,做的事情单一、重复率高,自然不允许犯错。但是,如果是生产部门,则另当别论,生产部门需要面临不同的原材料(IT运维往往要面临不同的数据和有缺陷的软件),承担巨大的生产压力,其实高层管理者,往往喜欢用成本利润的方式来考核生产部门。不出事不是最重要的,关键是事故可控,以及控制事故的成本低于所能获得的利润。

有了这个对比就清晰多了,即然IT运维部门对于一个企业来说是生产部门,那么管理者更应该关注的是能接受的IT服务质量和成本是什么,以及哪种类型(或严重程度)的事故是不能接受的。我曾经接触过一个客户,他们列出了不能接受的几类事故(例如:大量数据丢失、安全泄密、长时间故障不能恢复等),同时列出了能接受的服务质量(例如:可用率指标、服务响应时间指标、故障响应时间指标、知识管理指标等)。这种比较清晰的、可量化的指标体系,可以保证IT服务管理有的放矢。那么基于这些指标,IT服务管理者就可以选择合适的流程和工具,保证关键和重要指标的满足,同时也可以考虑节约成本的方法和途径。同时,也能避免“干的最好就是个60分,稍有纰漏就是不及格”。只要指标满足了,就是个100分。没满足,那么可以根据指标的权重计算分值,当然了出了不可接受的事故,就是不及格。

没有规矩不成方圆,我强烈建议,任何一个准备提升IT服务质量的企业,先根据自身的业务需求,列出(或回顾)完整的IT服务指标。同时,这些指标也可以作为SLA(Service-Level Agreement)管理的基础。