日常IT运维遇到的问题
      前段时间刚好和运营商网络运维中心的几位工程师进行了一次沟通,无意中聊到了平时是如何进行日常运维工作的话题,他们一致的感觉是又累又繁琐。便觉得很纳闷,经过了解才明白由于运营商级别对网络稳定的要求很高,每天都要实时了解网络中资源的运行状态,比如核心网络设备是否运行正常,关键应用服务器上的进程是否运行正常等,为了保证能够进行实时监控,他们的运维中心还特别设置有一台网管值班电脑,电脑里面也运行了国外知名的监控软件,每天他们值班就是盯着这台电脑看,每天都是一大堆的数据需要他们自己去进行分析,而且他们使用的监控软件都是工具级软件,一个工具用来监控服务器应用,一个工具用来监控网络设备状态,一个工具用来监控网络流量,每天就是切换来切换去的查看,这样的日常运维工作模式能不累能不繁琐吗?
为何IT运维会遇到如此问题?
      我们也一起探讨了一下如何才能更有效的进行日常的IT运维工作?不管是运营商的网络还是政府、企业的网络,都有影响关键业务系统的IT资源需要保证其长时期、高效、稳定的运行,这样就要进行实时监控,实时保证这些关键资源运行正常。而原来他们所使用的监控软件只是对资源进行数据采集,提供了一大堆的数据给他们,他们自己还要去进行筛选,从这些数字中查找到异常事件,然后才能去解决问题。这样的软件并没有真正意义上帮到网管人员,反而让他们把所有的精力放在繁琐的数据分析上。
      
      是否有一款网管软件可以真正意义上让网管人员轻松的进行IT运维呢?这样的软件应需满足以下这样的需求:
1.自动分析网管数据
      此网管软件应可以帮助网管人员分析数据,对所有采集到的数据进行自动的分析,定义不同的事件级别,使得网管人员不再花费太多的时间在分析上,而是在整体的IT运维上。 
2.实时了解网络情况
      网管人员的日常IT运维最主要的就是实时监控网络中IT资源的状态,随时了解网络情况。网管软件应有一个图形化的界面,此界面能够通过不同样式的状态图标以及不同颜色的变化来快速让网管人员了解网络中IT资源的运行情况,比如可以了解网络设备物理连接情况、网络资源(链路)运行情况等。软件还能提供实时告警平台,实时刷新告警信息,网管热源只要一看到系统立刻了解到网络异常信息,并可对告警进行定位和故障分析。 



3.实时通知网管人员异常情况
      网管人员不应通过只有坐在电脑前才能了解网络实时情况,应需一个实时告警机制通过不同的方式及时告知网管人员,这样网管人员才可做到真正意义上的实时监控,轻松玩转IT运维。