无论一个数据中心的自动化水平多高,技术多先进,都需要监控,监控是整个数据中心生命周期中最重要的一环,事前及时预警发现问题,事后提供详实的数据用于追查定位问题,一切信息和数据都有溯源可查,这就是监控的作用。

虽然现在有无人值守数据,有软件定义数据中心,各种智能化的数据中心,但实质上这些数据中心都是离不开人的,若没有人的参与和指导,这些设备都还可能处于无序的工作状态。就像前段时间,有人讨论机器人和人的关系,未来究竟是谁能代替谁的问题。对于数据中心来说,人在数据中心的运行周期里依然起着最为关键的作用,数据中心离不开人。数据中心也不是放在那里运转起来就不用管了,还是需要人去监控和管理。所以无论一个数据中心的自动化水平多高,技术多先进,都需要监控,监控是整个数据中心生命周期中最重要的一环,事前及时预警发现问题,事后提供详实的数据用于追查定位问题,一切信息和数据都有溯源可查,这就是监控的作用,通过监控得到的信息可以提升数据中心的运行效率和运维水平,提高生产力,所以说监控是数据中心的天眼。 


监控是数据中心的天眼_java

 

关于数据中心监控方面的技术和工具数不胜数,从最开始的SNMP MIB网管,到现在的云计算工具,可视化、图形化、自动化的工具可真是不少,而且不少还是开源的免费使用。比如:MRTG(Multi Route Traffic Grapher)、Ganglia、OpenTSDB、Zabbix都是免费的,当然用起来都有不少问题需要自己修改,还有一些专业的定制化软件,这些则需要支付费用,针对特定的数据中心设计一些专用的监控软件。不管是哪个软件,本质都是从数据中心的各个运行设备上获取与运行相关的数据信息,从而判断数据中心运行是否正常,将这些信息传递给管理人员,由管理人员进行决策,如果是简单的切换动作,也可能交给监控软件自行完成。所以,对于监控来说主要完成六件事:采集、存储、分析、展示、报警、处理,如果一个数据中心的监控系统具备完成这六部分的内容,那这个数据中心一定是很棒的,管理人员可以天天喝茶去了。具体来讲这六个部分,采集指的是通过SNMP、ICMP、设备命令等对各种设备进行数据采集,这个采集的数据量也许是海量的,数据越多越好,这样对于判断分析问题更为准确;存储指的是要将这些采集到的数据定期存储下来,避免丢失,方便日后回查;数据分析指的是当我们事后需要复盘分析故障时,可以对这些数据进行分析,借助于大数据、云计算等新技术,对采集到的海量数据进行分析,也可以将这些数据通过图形化、概率统计方式进行显示,方便分析;数据展示指的是将数据中心运行的各种实时参数(比如:流量图、业务洪峰、网络互联情况、环境情况等)通过网页或者大屏的方式显示出来,让人一目了然。不少的数据中心都有这样的显示大屏,将数据中心的各个系统运行状态和关键数据在大屏上显示出来,哪里出问题可以立即在大屏上看到,便于管理人员发现并及时排除问题。监控告警指的是为这些监控的数据设定安全阈值,一旦采集到的数据不符合安全阈值要求,立即发出监控告警,包括电话告警、邮件告警、微信告警、短信告警、告警升级机制等。报警处理指的是当接到告警后,我们需要根据故障的级别进行处理,比如:重要紧急、重要不紧急、不重要紧急、不重要不紧急等,根据故障的级别,配合相关人员进行快速处理。

 

那么,数据中心的监控都监控哪些方面呢?数据中心的确是一个非常复杂庞大的系统,监控不可能面面俱到,一定要监控对数据中心最重要的地方。一般来讲,数据中心的所有设备硬件状态都要监控,电子设备出现硬件故障在所难免,一个拥有十几万台服务器的数据中心几乎每天都会有服务器故障,所以对这些服务器的硬件情况一定要监控,发现异常及时将故障设备下线,业务切换到其它服务器上继续运行;还要对所有设备的CPU、内存、磁盘使用率、磁盘读写都要监控,发现异常及时处理;业务服务的监控,通过脚本来实现想监控的内容,以及报警和图形功能;网络的监控,网络是数据中心的重要组成部分,一般也是由数百台的网络设备连接组合到一起,要对这些设备和链路进行监控,发现异常及时告警;还有安全监控、业务监控、流量分析、可视化、自动化监控等等,一个完整的监控体系要做的工作非常多。但一定要注意,切不可大而空的监控,如果做不到全部就做部分,监控数据中心的一部分,将这部分做精做好,很多时候采集的数据不正确或者关键数据没有采集到,导致问题并不是由监控系统反映出来,而是由业务层面反馈出来的,这时对业务已经造成了影响,监控系统没有起到应有的作用。监控系统要全面,但也要注重采集和分析数据的准确性。

 

监控是数据中心的天眼,对数据中心的重要性不言而喻,就好像人走路不能离开双眼一样,每个数据中心在整个运行周期过程中都在不断完善和建设自己的监控系统。监控的目的是要及时发现数据中心出现的问题,并且能及时定位问题、解决问题,当然事后还要总结。如果监控不能做到这些,那么就不是一个好的监控系统。监控系统就好比是数据中心的体检医生,要能看病还能治病,数据中心不舒服了,立马在监控系统上就有体现,这样监控才能起到应有的作用。有了监控系统,人的作用的确不大了,只要人去做决策就好了,监控会将数据中心的运行状态记录下来并及时给出告警,以便人们进行处理,好的监控系统就是只将YES或NO的选择留给人们去做,所有的信息数据监控系统已经分析好了。