游龙科技的SiteView系列产品最大特点和优势就是可进行分布式监测、集中化管理。分布式监测彻底解决了某些企业规模庞大、分布广泛难以统一管理的难题。SiteView系列分布式管理被应用到众多的行业企业之中。
  移动梦网业务覆盖全国,SiteView系列为其提供分布式监测,掌握全国范围内的网络状况;北京网通业务系统众多,SiteView实现对服务器、网络设备、PC终端的分别部署,再分层级部署的方式,来保障其业务系统的完好;针对一些互联网行业规模大、分布广泛的情况,SiteView仍然是利用分布式监测、集中化管理来保证工作的正常运行。
  电信行业分布式部署:
  移动梦网:集中管理 构筑SiteView网管平台
  近几年来,“移动梦网”以短信业务为契机,相继成功推出了短信新闻、移动QQ、手机铃声图片下载、移动游戏等互联网应用。然而,在数据业务蓬勃发展的同时,网络负载和网络管理问题也开始逐渐暴露出来,制约了数据业务的更快发展。
  移动梦网开始积极寻求建立与数据业务发展相适应的更加科学的网络管理系统,以促进移动数据业务的持续繁荣。为了更好地管理全国各地庞大的网络,卓望信息科技有限公司(简称卓望)作为移动梦网的运营支撑中心,希望移动梦网各地网管人员能够全面实现主动管理、集中统一网管模式、整体优化网络资源等等,于是决定分阶段在全国实施网管系统大改革。在最初阶段,移动梦网计划在13个省市的核心节点全面部署网管系统,对分布于全国各地的核心节点的服务器、网络设备、应用系统和网站等实行大规模网络的集中监控和管理。
  网管产品选型
  为了选择完全符合需求的网管产品,卓望对国内外主流网管产品从稳定性、易用性、灵活性等诸多方面进行了严格细致的考察和测试,并从厂商规模、研发能力、核心技术、技术支持、售后服务等方面对网管产品进行资格限定。经过重重考核后,北京游龙科技自主研发的SiteView网管系统最终入选,其提供的移动网管解决方案获得了卓望的高度认可。
  移动梦网网管系统采用分布式架构的部署方式实现全网集中管理,通过一台SiteView监测主机实时采集和分析各省SiteView子系统反馈的数据,7X24小时对移动梦网全国范围内网络核心节点运行状况进行全面监测。SiteView网管系统采用全中文web界面,具有灵活的系统架构,相对于国外网管系统而言,对大规模网络的管理更具有可用性和可操作性,实施快捷简便,具备高效的二次开发能力。
  北京试点:寻找最佳网管模式
  2004年12月,SiteView网管系统开始在北京分公司和中国移动望京总部两个地方进行试部署和运行。按照实施计划,移动梦网网管系统先期在北京试运行,解决北京移动网管系统测试过程中发现的各种问题,完成相关二次开发后,再把这种网管实施模式推广到全国各地。
  在北京移动网管系统进行安装和测试的过程中,切实解决了中国移动个性化网络环境导致的很多网管问题。通过部署,望京总部网管系统实现了对所有服务器的CPU、内存、DISK和所有网络设备的接口流量、接口状态和丢包率等的24小时实时监测,并提供及时、准确的警报系统和美观、直接的拓扑图,完全解决了其最为关注的核心层监控问题。
  移动梦网各省大多使用四层核心交换机,因此在望京总部实施中遇到的四层交换机监控问题非常具有代表性。移动梦网核心交换机使用频率高、负担大,经常当掉某一个或某几个端口,甚至整个交换机死机。以前,总是由用户反映网络问题,但即使移动网络管理人员通晓加班,有时也很难发现问题,因为网络发生问题的可能很多,需要对各种可能逐一排查。望京移动总部安装完SiteView后,测试时发现四层交换机宕掉,移动的网络管理人员当时表示怀疑,因为并没有用户反馈网络有问题,而且交换机的指示等还在亮着。但没过多久,网管人员就接到网络问题的反馈电话,查找后发现确实是交换机死机导致的原因。
  全国部署:高效、快捷的实施
  在北京进行部署和测试的同时,移动梦网在全国各地网管项目的准备工作也在紧密进行中。由于各地移动梦网是同一个业务平台,其运行模式、网络环境都很像,而且试点工程做得很完善,所以SiteView网管系统可以很快在北京、广东、福建、湖北、山东、浙江、河南、江苏、上海、四川、重庆、辽宁各省分公司及总部部署网管系统,各省实施均不超过四天。
  在实施SiteView网管系统前,卓望用了很多手段,但是对数据库、运营参数只能登陆查看,没有切实有效的方法。而中国移动有些机器很重要,比如话费系统服务器、短信业务系统服务器等,管理人员也不可能经常登陆。现在,移动梦网通过采集分布在各省的网管子系统,把网络运行数据全部汇总到深圳的监测主机后,再进行集中分析、调整和处理等,极大地提高了网管效率。
  用户满意:得心应手的网管系统
  一直以来,卓望都要求各地网络管理人员统计汇报网络设备周报或日报,在没有采用SiteView网管系统前,统计工作繁琐、效率很低。以前移动主要走××× 安全认证模式、远程桌面之类的方式进行网络管理、维护和运营分析,上层很难及时掌握全网状况,网管人员也不能在很短的时间内了解分布于全国各地的网络的整体运行情况。现在各省都采用了网管系统报表自动统计功能,随时都可自定义生成一个图文并茂的统计报表,对整个系统运行维护帮助很大。
  实施SiteView网管系统以来,移动梦网的网管系统一直在7X24小时高速运转,有力地保障了中国移动梦网业务的正常运行。中国移动各地的网管人员多次及时接到网管系统发送的某地某机器潜在运行故障、页面链接不正常、重要机器即将当掉等警报。由于SiteView报警信息明确定位了故障位置,移动网管人员仅通过远程操作就解决了绝大部分问题,放心地实现机房无人职守环境。
北京网通携 SiteView 合力构建网管系统
  北京网通的网络隐患
  随着业务量的增加和网络规模的日渐复杂,北京网通的管理人员发现他们总是处在“忙于救火、顾此失彼,不能及时处理并发的网络故障”的状态。这种情况严重影响了网络环境的稳定,更为严重的是会导致用户终端异常,成为北京网通潜在的隐患。这一现象的出现是由于传统的手工运维已经跟不上复杂多变的网络环境,以自动化、流程化代替传统手工运维势不可挡。部署网络管理软件已经事在必行。
  在经过一系列的考察后,北京网通最终选择了在电信运维领域卓有声誉的网管软件厂商——游龙科技作为合作伙伴,着手共同组建网管系统。经过近一年的调研、沟通和交流,游龙科技规划和设计了一套专门适合北京网通的网管系统,并且提供了完善的SiteView ECC 系统管理解决方案。
  针对北京网通的网管系统工程包括主体监测和二次开发两个部分。在主体监测部分,北京网通逐步实施了分布式的监测架构,全面深入监测北京网通网络系统;为了应对北京网通的网络管理需求,游龙与其共同开发了IT资源管理和故障只是管理两个子系统,寻觅到个性化网管利器。
  北京网通目前的网络设备绝大多数是市场上的主流设备如 CISCO 、华为等大型交换机、路由器,此外还有大量的服务器及数目众多的 PC 设备。游龙科技高级工程师说,“网络环境虽很复杂,不过 SiteView ECC 足以应对,分布式监测架构能满足集中管理的需求。”
  “倾心护航”业务系统
  对北京网通的网管系统主要监测 IP 增值业务中最重要的三项,分别是:一、BBN,北京网通的门户网站,用户通过网站进行业务申报、缴费以及其它一些相关业务,是网络管理重点维护对象;二、流媒体,主要有在线视频播放、互联网直播、视频会议等功能,是关键应用系统;三、AIOBS/CBS 综合计费管理系统,用户可以采用现金、支票、银行划帐等多种缴费方式缴费,是保障北京网通收益的关键。
  对于 BBN ,SiteView 系列主要监测支撑北京宽带网正常运行的 Web 服务器的 CPU 、内存、磁盘等的使用情况,并且可以发送数据包检测 URL ,此外还对一些 FTP 服务器、 DNS 等进行监测。SiteView 系列可以对网站访问情况进行实时跟踪监测,如果发生不能正常访问的情况,会及时以短信、声音、颜色等形式报警,这样北京网通的网络管理员能及时明确故障信息,快速处理这些故障。
  对于流媒体服务的监测,SiteView 系列主要是通过监测北京网通全网的网络流量来实现。在线视频播放、互联网直播以及视频会议都对带宽提出了比较高的要求,因此网络管理员必须明确网络流量。 SiteView 系列通过对一些网络设备的接口流量进行监测控制,并根据要求进行管理,能保证全网处于有效、平稳的运行状态,为用户的业务需求提供了良好的应用平台。
  对于计费系统,SiteView 系列主要监测其统计数据的数据库,通过监测数据库文件系统、表空间 (Tablespace) 使用情况、事物日志空间的使用情况、数据库死锁、数据库进程等一些性能参数,能够知晓其运行状况。除此之外,还通过软件让程序定时执行一些重要的与关键应用相关的SQL语句,如果查询时间超过阀值或查询结果不正确,表明数据库出现问题。如此一来,能保障计费系统的数据信息处于稳定状态,保障了北京网通的网络高效运转。
  北京网通部署了一个 SC 设备(一级),三个 SE 设备(二级),最后就是终端设备,此外还有一个 DB 与 SC 相接,如下图所示。其中 SC 是中心控制平台,通过其可以实现实时监控、报表生成、报警发送等功能;在 SE 上安装相关的监测器,可以对终端实施相应的监测,并且进行采集数据操作,然后通过 Web service 发送给 DB ;DB 主要负责收集数据,并进行处理分析,当 SC 对 DB 发出一个命令时,就反馈数据给 SC,SC 根据其判断规则来判断网络系统是否处于正常运行状态。
  
  “精心管理”资产与知识
  游龙和北京网通合作开发的两个子系统——IT资源管理系统和故障知识管理系统,是专门针对北京网通的网络特点所开发的,在监测整个网络中有着重要的意义。
  IT 资源管理子系统能统计北京网通内所有的网络设备、服务器以及一些相关备件的设备信息,方便网络管理员进行维护管理,此外还提供信息检索功能,通过手工录入设备信息后,网络管理员能轻松查询到提供关键服务的设备信息,并进行实时监控管理。
  故障知识管理子系统能充当起网管管理员的故障知识库角色,通过其故障知识系统能了解各种故障的处理方法;通过其故障信息检索功能能查询网络设备出现故障的时间及具体故障信息;通过自定义故障知识系统能将遇到的一些新的故障存贮到故障知识系统中,方便日后进行查询应用。
  SiteView ECC部署后取得了非常好的效果,北京网通综合信息中心网监孙淼对这次的网络管理系统的部署评价为“非常成功”。解决了北京网通“忙于救火”而“顾此失彼”的现象,为北京网通的业务系统的正常运行提供保障,让北京网通真正“网络通天下”。
  互联网企业分布式部署:
  面对大规模网络监测 SiteView ECC终显身手
  游龙SiteView ECC 在某大型互联网企业已经得到成功的应用。该企业的最大的亮点在于有一千多个节点,称得上是一个电信行业的级别。在规模如此庞大的应用中,游龙科技的SiteView ECC在稳定性和功能性方面都做到了一个很大的提升。
  确实是,提及网络监测与管理,大规模并发一直是一个颇有挑战性的命题。无论是近年来兴起的ITIL理念还是BSM理念,虽然在系统架构上有所改进,但都对大规模并发这个命题没有太多突破。历经近年来用户市场的磨练,近日此互联网企业在游龙科技SiteView ECC平台的运行下,已然在其大规模网络的监测与管理方面收获了满意的结果。这也不得不令业界为之叹服。
  面临的挑战
  对于网管系统来说,想要实现一个庞大复杂的数据中心自动运维有着几方面的难点,而最大的问题在于底层网络设备的监控。对于网络规模庞大、网络设备众多的企业来说,从功能度的角度来看,想要落实底层的网络监控必须要完善几千个相关的监测指标,同时,这样规模的网络对于一个网络运维系统的性能是一个严峻的考验。
  其次,规模大的企业网络运维人员比较多,而且不同的运维人员管理的网络所面向的业务和部门也不尽相同,如何针对这些运维人员做到合理完善且便于更改的权限划分也是一个比较棘手的问题。
  第三方面在于针对网络管理者的报表呈现。某些企业的网络管理部门的领导倡导精细化管理,这就要求网络运维系统对于网络的规划、运营、升级等工作提供出客观的依据,究竟哪些业务系统需要增加服务器、增加投入,那些业务系统的IT开支应该压缩,这些取舍都需要有深层次的报表提供依据。
  解决办法及亮点
  面对着多重的考验,游龙科技经过深入的分析研究以及数次的实地考察,采用了业内先进的分布式架构来应对数据中心底层网络监控带来的挑战。他们将整体网络进行有效的划分,在各个划分出来的网络中放置了负责采集底层数据的网络运维系统服务器,最后通过一台总服务器对这些分布在各个网络区域的子服务器进行管理。利用这种分布式的分级管理,使得多台服务同时监测几千个运维指标成为了现实,而且,在这几千次的数据检测中,故障问题的报警正确率达到了100%。不仅如此,游龙科技在针对大规模级别的项目中实现了创新性的“自适应网络运维”模式,使得网络的运维工作更为自动化,更为智能。
  举例而言,某个企业每年的业务有30%的增长,当他们每增加一台服务器的时候,他们并不需要针对这台服务器重新配置网络运维系统,被监测对象可以自动被添加进网络运维系统中,同时网络运维系统可以根据该网络设备所承载的业务应用自动设置报警阀值以及相关的报表。
  用途和特性相同的网络设备,游龙科技实现了批量调整配置,大大缩短了网络运维系统的配置时间,提升了用户网络升级改造的速度,加快了新业务系统的上线时间。可以说,在底层的网络监测功能中,游龙科技不仅成功地解决了面临的困难,而且迎难而上,做出了巨大的突破和创新。这个创新充分解决了网络运维平台和系统管理方法的对称性问题,而这个创新也是游龙科技多年的经验积累所衍生而来的产物。
  在网络运维系统的性能方面,游龙科技的网络运维系统基于自有的数据库,可以支持很大的并发量,同时,在几千个网络节点的轮巡中,平均轮巡频率在5分钟左右,系统可以根据不同的轮训时间对网络设备进行分组监测,这样就可以大大的降低系统的并发监测数量,提升网络运维系统的性能。