reliability availability  Serviceability
可靠性和可用性是我们常见的IT系统衡量指标
可靠性(R)是指从它开始运行到某个时刻,这个时间段内正常运行的概率。
两个故障之间系统能正常工作的时间的平均值成为平均无故障工作时间。
通常平均修复时间来表示计算机的可维修性(S);
可靠性是在给定的时间间隔和给定条件下,系统能正确执行其功能的概率。
可用性(A)是指系统在执行任务的任意时刻能正常工作的概率。A= MTTF/(MTTF+MTTR)*100% MTTF+MTTR=MTBF (Mean time Between Failure)

提高可靠性需要强调减少系统中断(故障)的次数,提高可用性需要强调减少从灾难中恢复的时间。

A系统每年因故障中断十次,每次恢复平均要20分钟,B系统每年因故障中断2次,每次需5小时恢复。则A系统可用性比B系统高,但可靠性比B系统差。

可靠性的量化指标是周期内系统平均无故障运行时间,可用性的量化指标是周期内系统无故障运行的总时间。一般提高可靠性的同时,也同时提高了可用性。

要提高可靠性,可使用变更管理,UPS,RAID,Cluster,链路冗余等管理和技术手段减少系统Down机的可能性。要提高可用性,除提高可靠性外,还可以使用合理备份,业务连续性计划等方式来减少从灾难中恢复的时间。

转自http://huxl007.blog.163.com/blog/static/12018678820095189478678/