运维管理技术服务项目技术架构运维服务管理体系标准

转载

mob64ca13fd9f8e 2023-10-21 14:37:27

文章标签 运维管理技术服务项目技术架构 IT 运维服务质量 文章分类 架构后端开发

子曰“干的最好就是个60分，稍有纰漏就是不及格”

谈一个事情，最先要谈的就是统一标准，又或者这个标准已经约定俗成，广泛认可，所以就可以略过。对于IT服务质量来说，确实有一个统一的标准，那就是上面的那个子曰：“干的最好就是个60分，稍有纰漏就是不及格”。可悲的是虽然无论基层技术人员、中层管理人员、高层管理人员，甚至是旁观者来说，都不觉得这个标准是非常合理的，但是在实践当中，大家又都不自觉的执行着这个标准。真是有够虐心的。

有一些高速发展的中小型互联网企业，为了保证技术团队的积极性，对运维事故表现出很高的宽容度。但是，这不代表老板心中没有看法，所以实际上标准还是那个“子曰”。

在这种畸形标准的制约下，很多企业（特别是有钱企业）的IT服务管理走向了一条为了表现“已管理”，而进行管理的邪路。其本质原因是，在运维过程中，事故是难以完全避免和杜绝的。但领导的期望又是杜绝事故，那对于中层管理人员和基层技术人员来说，唯一能做的就是让领导相信，“我们把能想到的都做了，再出事那就是天灾人祸”。

说这个问题以前，我想先拿传统企业来做对比。传统企业比较典型的有产品开发部门、生产部门、市场和宣传部门、销售部门、售后维护部门，还有其他一些保证企业运行或发展的平台部门。对于一个以信息化（网上、手机上）服务作为主要业务提供模式的企业来说，和传统企业相关部门的对应关系是，软件开发部门对应到产品开发部，市场宣传部门和销售部门几乎没变（可能营销方式不同），售后部门基本没变，平台部门基本也没变，那么IT运维部实际对应的是传统企业的生产部门。想通这个问题很重要，因为实际上许多企业仍然按照传统的模式，把IT运维部门对应到平台的某个部门当中。平台部门是纯粹的成本部门，做的事情单一、重复率高，自然不允许犯错。但是，如果是生产部门，则另当别论，生产部门需要面临不同的原材料（IT运维往往要面临不同的数据和有缺陷的软件），承担巨大的生产压力，其实高层管理者，往往喜欢用成本利润的方式来考核生产部门。不出事不是最重要的，关键是事故可控，以及控制事故的成本低于所能获得的利润。

有了这个对比就清晰多了，即然IT运维部门对于一个企业来说是生产部门，那么管理者更应该关注的是能接受的IT服务质量和成本是什么，以及哪种类型（或严重程度）的事故是不能接受的。我曾经接触过一个客户，他们列出了不能接受的几类事故（例如：大量数据丢失、安全泄密、长时间故障不能恢复等），同时列出了能接受的服务质量（例如：可用率指标、服务响应时间指标、故障响应时间指标、知识管理指标等）。这种比较清晰的、可量化的指标体系，可以保证IT服务管理有的放矢。那么基于这些指标，IT服务管理者就可以选择合适的流程和工具，保证关键和重要指标的满足，同时也可以考虑节约成本的方法和途径。同时，也能避免“干的最好就是个60分，稍有纰漏就是不及格”。只要指标满足了，就是个100分。没满足，那么可以根据指标的权重计算分值，当然了出了不可接受的事故，就是不及格。

没有规矩不成方圆，我强烈建议，任何一个准备提升IT服务质量的企业，先根据自身的业务需求，列出（或回顾）完整的IT服务指标。同时，这些指标也可以作为SLA（Service-Level Agreement）管理的基础。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。