首先从大的分类来讲:

1. 设备物理监控系统

监视硬件设备的物理健康特征,如温度、电压、风扇工作状态、电源状态等;

2. 网络安全设备

各大品牌的路由器、交换机、防火墙、IPS、IDS等;

3. 存储设备

磁盘阵列、光纤交换机;

4. 操作系统

AIX、BSD、HPUX、Linux、Solaris、Windows、虚拟化;

5. 系统软件

各类数据库、中间件、Web服务、DNS、AD、DHCP、存储备份系统;

6. 应用系统

各类MIS、OA、Email、CRM、Web网站等;

7. 其他

其他还包括,动力环境监控,监控机房的温度、湿度、漏水和精密空调等情况;UPS监控,监控UPS电影的电压、温度和供电时长等情况。

clip_image002

图:监控分类图

对于各种这种类别还有一个更细的分类,分类的维度稍有不同,列出了素有需要监控各个类别的明显对象,如下图:

clip_image004

图:监控分类2

另外还要提到一个监控系统设计的重点,之前的监控系统只负责监控各类设备是否允许正常,但实际上经常发生的情况是,最终用户反映系统很慢或者根本访问,但是各类IT的设备都是运行正常的。因此我们监控系统从设计思路上进行一个转变,就是已业务系统为核心的监控。

下面的图我们看到一个最基本业务系统的情况:

clip_image006

业务业务系统为核心的监控是这样的思路:

1. 业务系统响应情况监控,监控业务系统如OA的各个功能能否正常,有没有不响应的;各个功能的响应时间是怎么样的,有没有很慢;

2. 业务系统使用的数据库和中间件情况性能如何,数据库的用户数、缓存命中率、SQL语句的平均响应时间如何;

3. 与系统软件管理的服务器的情况,网络流量、CPU使用率、内存使用率、磁盘使用率等情况;

4. 与物理服务器管理的网络设备及其对应的端口是运行情况如何;

5. 与物理服务器管理的存储设备性能情况,IOPS的情况,存储还有多少空间,之后能否满足业务的需求;

通过上面的内容,我们可以描绘出来,业务系统的响应情况不断的有模拟用户从不同的地方登录,监控它的响应情况,是否存在问题,如果发生问题,可以根据系统关系,关联找出是哪些设备或系统软件出现问题,尽快在影响最终用户之前解决响应的问题。

clip_image008

图;业务系统监控图