·案例背景
中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。
随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状况直接影响着员工办公、企业生产,因此确保应用系统的安全、可靠、稳定地运行成为系统维护部门越来越重要的工作。
目前中国联通的门户系统供全国的联通员工办公使用。在门户系统维护工作中存在着如下问题:
·系统需要人工监控,维护量巨大,并且无法一一监控到位,同时不能做到持续地实时监控。
·忙于应对已发生的故障,被动响应式的工作方式,解决故障的效率低。
·门户Portal无故宕机,很难及时发现和预见问题的发生。
·问题出现后,很难快速、准确地找到根本原因。
·找到问题后,缺乏流程化的故障处理机制。
·支持过程总是被打断和干扰。
·缺乏过程和变化的跟踪记录,如系统运行状况、主机配置变化、应用模块变更等。
·不能及时地统计、分析系统状况,供领导决策。
结果造成维护部门在出现问题时疲于应付、导致维护工作的满意度较低,这些问题一直困扰着IT维护部门。维护部门迫切的希望改变目前的这种状况。
·方案介绍
中国联通应用监控系统是基于Mocha BSM产品,该产品为联通总部提供了统一的、集中的IT服务管理平台。系统包括系统监控、报表展现、决策分析等主要功能。
系统监控功能
通过对主机、平台、应用等方面的监控,实现了对门户系统在性能上、可用性上全方面的跟踪,能够及时发现故障、确定故障影响严重性并能定位故障根本原因。
主机信息监控:提供对各系统所在的服务器进行实时监控。
平台信息监控:监控WAS、WPS平台指标信息直接决定提供服务的性能,从根源上管理平台可用性。
应用信息监控:经过多年经验汇聚,提取WAS应用层面重要指标,预防为主。
数据库监控:监控Oracle数据库的多项指标信息,提供数据库服务的性能和可用性指标,从根源上管理数据库平台的可用性。
- 主机方面
监控运行于集团公司、全国门户、Web应用的20台UNIX和Windows主机,包括CPU、内存、硬盘、OS文件系统等运行状况的重要指标。
监控时间频度为1分钟采集1次(监控时间频度可以自行配置)。
- 平台方面
包括运行于集团公司门户平台监控的指标主要包括:
→ WPS平台 |
→ WAS平台 |
·WPS服务可用性 | ·WPS数据库可用性 | ·LDAP可用性 |
·WebSphere Portal | ·Server CPU利用率 | ·系统CPU利用率 |
·JVM内存利用率 | ·系统内存利用率 | ·连接平均等待时间 |
·Cell名称 | ·Node名称 | ·主机名 |
·IP地址 | ·WpsPid | ·WpsHostPort |
·WpsContextRoot | ·WpsPersonalizedHome | |
- 应用方面
全国门户应用:包括各省公司及全地市的应用系统,分布在两台服务器上。
集团门户应用:包括集团公司的所有用户的使用的办公系统,分布在两台服务器上。
应用监控的内容主要包括:
·总部门户的全国应用 | ·全国门户的全国应用 | ·内容发布 |
·省份园地 | ·网上调查与应用 | ·业务论坛BBS |
·工作流 | ·工作流待办 | ·工作流待阅 |
·全国门户Portal | ·全国门户WebSeal | ·总部门户Portal |
·总部门户WebSeal | | |
监控时间频度:对于部分监控频度要求较高的指标为1分钟采集1次、对于部分监控频度要求较低的指标1小时采集1次(监控时间频度可以自行配置)。
系统监控的其它功能点
→ 对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便维护人员了解故障并及时解决故障。
→ Mocha BSM对门户系统的主机、平台、应用等各方面的过程和变化进行全面的跟踪记录,如系统运行状况、主机配置变化、WPS平台配置变化、应用模块变更等都会自动记录到系统中,非常方便查阅这些动态信息,做到了可追溯,同时这也符合SOX法案的要求。
- 数据库方面
·实例可用性 | ·监听器可用性 | ·系统CPU利用率 |
·Oracle DB CPU利用率 | ·系统内存利用率 | ·Oracle DB 内存利用率 |
·PGA命中率 | ·库缓存命中率 | ·高速缓冲缓存命中率 |
·物理读速率 | ·物理写速率 | ·数据块获取数/秒 |
·一致性获取数/秒 | ·内存排序比率 | ·当前连接会话数 |
·当前进程数 | ·登陆会话数/秒 | ·当前打开的游标数 |
·当前锁数量 | | |
数据库管理的亮点数据库管理的亮点
自动发现被监控的数据库,自动发现数据库上的数据库表和表空间,并对此进行监控。 对以下关键组件进行针对性的监控:数据库、表空间、数据文件、进程、操作系统的文件系统。 提供数据库配置的监控,提供70多个可用性和性能指标,Top 10 SQL语句排名 ,数据库可视化管理。
报表展现、决策分析功能
Mocha BSM系统对监控主机、平台、应用等方面收集到的数据提供了各种直观形象的图表和报表展现,提供了统计报告,提供了资源和指标走势,用以辅助分析和决策。
通过Mocha BSM提供的查询、统计功能、分析功能,中国联通客户可以统计1个月以来发生的故障次数以及解决故障的时间等等,作为提高维护质量的基础数据。
Mocha BSM能够根据历史数据,并对未来趋势进行预测,使决策更有依据。例如,能够根据磁盘每天的增长率来预测磁盘扩容的时间点,提前向管理员提示,为主机扩容提供依据,同时避免了人为的检查疏漏而面临磁盘空间达到临近100%产生的风险。
·功能亮点
中国联合通信有限公司采用自行研发的摩卡业务服务管理(Mocha BSM)产品作为门户应用监控的解决方案。该方案解决了客户在实际工作中所面对的IT服务问题,该系统主要亮点如下:
·实时监控主机、WAS平台、WPS平台、WEB应用等基础设施、应用等IT资源的运行状态、性能和可用性。
·当监测到系统故障时,快速定位故障的主要原因,估算系统事件对业务的影响及其严重程度,并触发相应的故障处理流程。
·简单操作的系统管理配置,方便地配置所监控服务器的信息,应用数据自动获取。
·通过门户系统可以进行统一整合,实现单点登录SSO、统一授权和访问控制、集成展现和个性化等功能,使系统各模块之间实现无缝的协同工作,给IT服务经理、系统管理员、应用管理员等不同的用户群体和角色提供了可视化的工作平台。
·提供了丰富的报表,提供了统计报告,提供了资源或指标走势,用以辅助分析和决策。
·RTM监控定期的监控门户应用的可用性,可以在Web应用之上更细致的监控用户的登陆、点击的交换操作。使用户的体验过程的每个环节都得到有效的监控。
·客户收益
目前Mocha BSM系统已经在中国联通总部正式上线使用并稳定运行。通过Mocha BSM对主机和应用系统的监控、管理,彻底改变了IT部门维护主机、应用系统的工作方式、解决了IT部门之前面临的种种问题。通过Mocha BSM的实施和使用:
·从被动响应式的工作方式转变为主动服务。
·主机系统维护的满意度不断提高。
·通过自动的资源监控系统及时发现问题,避免重大故障发生。
·问题出现后能够协助管理员快速找到问题原因,并及时地触发故障处理流程。
·自动化的流程推送和提醒功能,在多任务工作环境下得心应手。
·分析数据,展现报表,使公司领导更及时了解到相关信息。
·使人员分工、IT预算等决策更有依据。