依靠网络连接维持正常运营的企业要求对网络性能进行持续、精确的监控,为此需要供应商提供一定的服务质量保证,确保达到或超过性能标准。不合格的服务质量会导致生产率降低、客户支持不足以及影响业务发展。当网络性能低于服务水平协议(SLA)中规定的标准时,服务提供商会向企业客户提供服务补偿。
网络可用性可以说是 SLA 中最常用的指标,但网络可靠性对于评估性能同样至关重要。虽然这两种衡量标准经常被互换使用,但它们却有着明显的不同,并且两者对于准确评估网络服务质量都至关重要。
什么是网络可靠性?
网络可靠性是衡量基础设施无中断运行时间长短的标准。可靠性通过几个不同的公式进行评估。
首先是平均故障间隔时间(MTBF),即两次故障之间的网络运行时间。
要得出这一数字,网络管理员需要用总服务时间除以网络故障次数。因此,如果在 100 小时的过程中,有三次网络故障,停机时间加起来为 4 小时,这相当于 96 小时的服务时间,MTBF 就是 96 除以 3,即 32 小时。这里可以看到 MTBF 的计算方法:
平均故障间隔时间 MTBF = 总运行时间 ÷ 网络故障次数
计算网络可靠性的第二种方法是查看故障率,它为网络管理员提供了平均故障间隔时间。要得出这个数字,IT 人员需要用总故障次数除以服务时间。在这种情况下,3 除以 96 的服务时间,得出 0.03125 的故障率,即略高于 3%。然后,管理员将故障率从 100% 中扣除,以计算网络可靠性,在本例中,网络可靠性为 96.875%。故障率和网络可靠性的计算可参见此处:
故障率 = 故障总数 ÷ 总运行时间
100% – 故障率 = 网络可靠性
各组织还应该通过评估平均修复时间(MTTR)来了解 IT 团队处理故障的效率和响应能力。IT 团队可以通过将特定时间范围内用于维修的总时间相加,然后除以维修次数来计算 MTTR。
平均修复时间 = 总修复时间 ÷ 总修复次数
什么是网络可用性?
网络可用性是指基础设施在特定时间段内的运行时间百分比。换句话说,就是正常运行时间除以总服务时间。这里可以看到网络可用性的计算方法:
网络可用性 = 网络正常运行时间 ÷ (正常运行时间 + 停机时间)
通过量化网络运行时间的百分比,网络可用性可以很好地反映基础设施的可用性。然而,在大多数情况下,网络可用性只能提供实际运行性能的有限视角。
网络的可用性可能很高,但并不特别可靠。举例来说,如果网络可用性测量的是每 100 小时服务时间中有 1 小时的停机时间,那么可用率就是 99%。这在纸面上看起来不错,但在一年中,这意味着网络中断服务的时间超过三天。可用率达到 99.9% 的网络每年停机时间将近 9 个小时。
另一方面,网络可靠性则强调基础设施在支持功能流程方面的运行状况。平均无故障时间(MTBF)长或故障率低的网络有可能持续完成交易和流程。
衡量网络可用性只是性能等式的一部分。IT 部门还需要跟踪可靠性以确认网络基础设施为支持业务流程提供了最佳服务水平。
网络可靠性 + 可用性 = 服务质量
要准确评估基础设施性能,网络管理员需要同时考虑网络可靠性和可用性。
IT 经理可以跟踪路由器和服务器等单个设备的可靠性和可用性。但衡量实际运行性能的更好方法是检查连接正常运行时间。也就是说,总连接正常运行时间除以总服务时间。
网络管理员可以深入分析和隔离网络上不同网段和路径的可用性和可靠性指标,以发现配置效率低下的问题,并更好地规划数据中心或其他企业资源之间的冗余。他们还可以利用这些信息来确定需要升级的资源。
另外两种技术也可用于帮助管理人员了解现实世界的运行状况。
- 第一种是被动监控,持续测量生产网络的可用性和可靠性。
- 第二种是主动监控,采用在网络上发送合成流量,并由性能工具对其进行测量,可用于故障诊断和确定最佳性能;还可生成测试流量,用于诊断配置错误和设备问题。
从主动监控中获得的数据还可用于其他领域。例如在部署新的应用程序之前,IT 部门可以在网络上对其进行测试,以确定任何潜在的问题,从而在推出之前对代码进行更改或其他调整。
最后,主动监控可用于验证被动数据。这些信息有助于支持 SLA 指标,并确定应在哪些方面进行更改,以更好地实现运营目标。IT 部门还可以利用这些数据规划故障转移措施。
相关阅读:
关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。