企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。
如今企业的信息系统已经更多的集中到以数据中心为核心的系统平台。与此同时,全球化令企业业务规模快速发展,也使得系统平台更加庞大,所需要处理的数据规模呈现爆炸性增长的需求,企业业务对系统平台的依赖性与日俱增,这就对以数据中心为核心的系统平台的可靠性提出了非常高的要求,一旦数据中心有任何闪失,随之而来的将是收入损失、停产、生产力降低、处罚/诉讼、客户丢失等有形损失,以及会产生负面效应、客户不满、企业信誉降低等无形损失,可谓是牵一发动全身,确保企业业务连续性已经是当今企业最重要的课题。
企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。与此同时,居高不下的运维成本,也使得企业数据中心很难依靠自身的力量管理发展。在这种情况下,越来越多的企业开始把目光投向了那些具有高可用等级的公共数据中心服务,为了与现有IDC数据中心业务进行区分,人们将具有高可用等级的公共数据中心服务称为EDC。
与IDC业务相比,EDC具有更高级别的数据中心可靠性,具有更加完善的基础设施平台,以高效可靠供电为例,EDC会提供双路市电,外加柴油发电机的供电保护,其中每一路市电均配有N或者N+1的UPS供电保护,如此一来,任何一路市电供电中断,都不会影响IT系统的供电。即使两路市电同时中断,也还有柴油发电机的供电保护,按照设计要求,柴油发电机通常有不低于72小时的油料储备,同时这些数据中心还与其附件的加油站签署有油料保障协议,几乎可以做到万无一失。
但真的是这样吗?我们不幸地看到,不断有高等级数据中心宕机事件见诸报端,如2011年12月13日,亚马逊旗下英国、法国、德国和西班牙数据中心宕机超过一个半小时,在过去的几年时间内,全球最大的支付平台PayPal、Google gmail系统、微软数据中心、iWeb CL数据中心、Chase.com网上银行、knocked Intuit网站数据中心均发生过严重的宕机事件,有些宕机时间甚至超过了24小时。国内的高等级数据中心也不能够幸免,有些具有2(N+1)外加柴油发电机的可靠供电保障的数据中心,也一度发生了电力中断的事件。
谈到数据中心高可用性,万国数据副总裁梁艳表示:“数据中心高可靠性并不仅仅是高等级数据中心设计以及产品设备的简单堆砌,高投入并不一定带来高可靠。数据中心的高可用性需要一整套管理的方法论和指标体系,其中,很多需要进行量化。为此,万国数据创造性地提出了适用性的概念,强调可用性的建设应该围绕业务发展的需求,通过整合ISO20000、ISO27001、BS25999标准在可用性方面的要求,结合自身多年的实践,创造了业界首套IT高可用管理体系方法论,从评估、规划、实施、运行与监控等5个层面实现。同时,通过引入制造业 SOP的管理方式,对数据中心的标准作业进行管理,从而为用户提供专业化的指导和安全高可用的保障。”
仍以高可靠供电为例,2(N+1)外加柴油发电机的保护只是基础,还需要高可用的管理体系,依靠运行管理,及时发现系统在运行中的隐患。目前很多数据中心还停留在事后告警的阶段,即发生了故障或错误提供告警,根本不具备主动式高可用实时监控服务的能力。如果监管水平到位,将可以有效提高数据中心的可用性,避免数据中心中断给用户带来的损失。
对于用户而言,也需要挑选哪些真正具有高可用等级保障的公共数据中心服务,有些数据中心对外宣传具有高效可靠供电的保障,设计了2(N+1)外加柴油发电机的 安全保障,但实际上,仅是在某一个特定区域按照2(N+1)设计,用作样板工程和对外宣传,这就需要用户在柴油发电机配置台数和总功率方面认真加以核算,挑选哪些真正具有高水平的保障的数据中心。
机房配电、UPS、蓄电池、发电机监控的重要性
数据机房的正常运行的保障就是供电能够得到保障,而供电设备包括了配电(220v、380v或者高压电)、UPS、蓄电池、发电机等,而市电是机房主要供电方式,当市电停止之后,机房能够自动切换到UPS或者是发电机,由这些设备继续为机房供电。
在机房监控系统里面,为机房供电的设备我们都称之为动力设备。动力设备是机房监控系统里面非常重要的一部分,通常会对市电、UPS、发电机、蓄电池进行以下参数监控:
1、 市电 常规的数据机房会采用380v的电压供电,普通的监控机房会采用220v供电。机房监控系统主要对三相电压、三相电流、有功功率、无功功率、缺相的等数据进行采集分析。当市电停断后,系统通过短信、语音、声光等方式对机房维护人员进行告警。
2、 UPS UPS又称之为后备电源,当市电停电后,UPS自动启动对机房或者是一些不可断电区域进行继续供电。然而,UPS供电只能是应急处理供电,无法长时间提供电能;供电时间根据蓄电池的容量来定。UPS监控常规监控数据一般包括:输入电压的监测、输出电压的监测、旁路电压监测、电池电流、电池温度、电池剩余时间等。(UPS只能进行监测一般不进行控制;监控的数据根据厂家提供的协议)
3、 发电机 发电机相对于UPS,能对机房提供的电能时间更长。发电机监控的数据一般为油温、油位、转速、油机的输出电压、市电功率、市电供电状态等。
4、 蓄电池 蓄电池的监控可分为电池组监控和单节电池监控。参数一般包括:电池总电压、电池电流、电池温度等。
5、 文章选自:机房监控系统http://jcd0755.cn.topoyo.com