在网络管理员的工作中,最重要的大概末过于提前发现问题并及时做出补救的措施以减少网络故障带来的影响了,这其中的影响包括故障发生时业务中断所造成的直接经济损失,但我觉得最重要的影响是由于业务中断而使客户对公司信任度的降低。
这个损失是无法估计的。在今天这个IT市场中,服务占有着举足轻重的为止。优秀的服务会让客户对公司产生信任,继而才会考虑和公司继续合作。
现在世界上很多大厂商都在努力提高售后服务质量,努力为客户解决问题。说白了是在竞争客户。
所以说网管员的工作并不是简单的维护设备故障,他要做更多的工作来防止故障的发生,在故障发生以后他要比客户更早的发现故障,并在引起客户抱怨的情况下解决它。
但是一个网管员不可能整天不停的去查看公司所有的业务,登陆所有的业务系统并测试这个业务是否正常,这不现实,而且并不能象上面说的一样及时的发现故障,到最后只会让管理人员筋疲力尽,而真正出现问题的时候大脑已经不能清醒的判断问题了。所以现在有各种各样的软件来辅助网络管理。通常一个大型的网络中人们会使用综合网管软件。我们也使用了一套,但是这样的网络管理软件体积庞大,需要巨大的系统资源来支持软件的正常运行。
一般网管软件包括网络拓扑自动发现、单点故障诊断、网络流量查看、端口服务检测等功能。这其中的功能多数都是在对网络进行一个系统的检测,查看网络中的监控点是否有问题,而网管软件对事件的报警是通过设置来对监控点的服务或者端口中断做出反映,在软件生成的网络拓扑图上将这个节点标记为红色并作出指定的动作。
但是这样程度的网络监控是远远不够的。我们尝试着寻找更简便但是更有效的方式来对网络监控。而网络拓扑生产成,网络的结构管理则由网管软件来做,既降低了网管软件对系统资源的消耗,也使一些不太常用的任务从网络检测中分离出来,使管理员每天接收到的只有故障信息。
在对网络的监控上,我们选择了HostMonitor软件。使用这款软件的原因除它简单的界面和强大的功能以外一个重要的原因就是它的试用版可以使用所有功能而不会有任何影响,只是软件会提醒定期注册。
HostMonitor是一个网络监测工具,能够定时地监视Server主机的TCPPort服务是否正常运作,URL是否存在、硬盘空间,当这些服务没有正常运作时,便会以声音、Email错误信息、启动指定程序等的方式通知网络管理员,方便引起客户的抱怨前将问题处理掉。他会连续的监视服务器是否还是激活状态,并记录服务器状态等资讯,若有任何问题他会尽快发出警告,让问题不会扩大。HostMonitor 能够检查的项目很多,包括监视所有的 TCP 服务、ping 任何一台主机、读取 URL、检查剩余硬盘空间、检查档案和网站的完整、测试 SQL 服务器等等。其中支持的 SQL 伺服器包括 InterbaseMS SQLMySQLOraclePostgreSQLSybase。使用者可以自行设定检查的间隔,若是某项检查没有回应,HostMonitor 会根据使用者设定的动作发出通知,可设定的动作包括显示讯息、发出声音、寄出 E-mail、建立 HTML 报告、或执行其他程序等,让使用者能够尽快知道有状况发生。
HostMonitor 当然也能够建立详细的 log 纪录档,并可按管理员设定不同的细节程度与格式,供事後分析之用,HostMonitor 也内建有图形式 log 分析程式,可协助管理者分析参考。
有这样强大的功能,我们看一下是否适合我们这种复杂的网络监控。
首先我们设定了监控软件的刷新时间,让软件对所有的监控点每隔2分钟进行一次,这样的更新时间既不会在网络中产生大量的测试数据,也不会
 
因为测试间隔过短而产生过多的误报。在保证对故障进行时时监控的情况下减少了错误率。而在出现报警以后也可以通过手动刷新的方式来进行手动测试,对事件报警进行进一步的验证。通常网络中会有短暂的丢包现象,这种现象在任何一个网络中都会存在,产生这种情况的原因多数是由于网络质量,计算机的本身问题等产生的。检测软件有很少的机会遇到这样的网络丢包期间而认为是网络故障而报警。灵活设置的更新时间和快速手动刷新特点使HostMonitor的错误报警减少到了最低。
HostMonitor可以监测的种类有很多,现在网络中的主流服务都可以通过它进行监测。由于我们现在使用的网站服务器设备陈旧,不能稳定运行网站的应用程序,所以网站经常出现偷停的现象。而一般的网管软件通常只对TCP端口监测,在网站应用程序偷停的情况下服务端口并没有关闭,所以网管软件会认为这个程序还在运行。而HostMonitor是模拟用户对网站进行链接测试,报警的标准是能否打开指定的网站页面。服务偷停后无论端口是否开放,HostMonitor不能打开网站的页面则发出报警信息。所以HostMonitor比其他网管软件监测的准确。
HostMonitor的报警方式直接有效。它可以通过日志,邮件声音等方式报警,最主要的是它可以设定激活报警的故障事件次数。比如说对一些网络状态不好的监控点进行监测时经常出现故障信息报警,但是重新刷新一下就恢复正常了。这样的情况我们就可以设置为当有一次故障信息的时候发出日志报警,当故障信息积累到连续两次以上时才发出声音报警。这样就可以根据报警的信息来判断监控点是否真的出现了故障。
HostMonitor软件体积小占用资源低。在普通的PC机上就能运行,这样除了不用添加新设备以外,还可以方便的安装在网管人员的个人计算机上,对于设备的监控非常方便,也不会影响到其他的程序运行。
HostMonitor相比网络管理软件来说也有很多缺点。它不能生成网络拓扑图,不适合做初期的网络维护。网络建设的前期间还是要靠大型的网络管理软件来让管理人员掌握网络结构,了解网络的节点状态。这在网络初期是很重要的,在网管人员了解了网络结构,明确了网络中那些设备和服务是重要的时候,就可以通过HostMonitor和网管软件配合网络管理。通过HostMonitor进行网络监控,把故障及时的通知给管理人员。用网管软件进行网络整体监控,了解网络结构的改变和网络中产生异常流量的节点。HostMonitor在初次使用的时候需要详细的设置大量的参数,使详细的日志报警来告知网管人员问题发生的详细情况。
有了功能强大的软件支持,让网管人员对网络监控更加准确和及时。及时的发现故障并处理,主动的询问用户是否出现了故障能减少客户的不满。让客户体会到公司为客户服务的认真态度。
HostMonitor和网管软件配合使用不单提高了网络管理员的工作效率,也在无形中提高服务,树立公司形象。