当前很多企业都在不同程度的建立了和正在使用着IT服务系统,与此同时也遇到IT服务繁杂但“不给力”,管理较为混乱,投入与产出不成比例等问题。而内部IT运维人员更是时常扮演着吃力不讨好的“救火队员”的角色。到底如何才能提升服务质量,将IT服务管理得有条不紊并彻底改变运维人员的困境呢?本文从IT服务管理的角度进行深入陈述,通过要点分析,最终结合IBM的相关产品和理念给出了运维管理的实践参考。

1.服务/运能级别管理

IT部门要实现企业的投资回报率,在服务质量需求、客户满意和服务成本之间实现平衡,就必须在任何IT服务的立项阶段着手制定服务级别约定(SLA),即:IT服务提供者(IT部门)与用户之间的约定。其内容包括:IT服务的描述,约定服务次数与时间,响应时间,故障恢复耗时(Recovery Time Objective),故障恢复程度(Recovery Point Objective),用户和提供者的各自责任,关键业务周期,异常处理与升级渠道,以及最终报告等。应当注意的是:对于同一种IT服务,由于总部和分支办公室的地域差别以及不同部门用户的角色差异,服务级别约定有时候需要进行定制,以满足其要求的差异性。此外,IT部门除了有基于服务类型的“总体约定”,还应制定:“特殊区域/部门详细约定”,例如:对总部宽带线路的品质保证和特别为财务部数据安全的保证;以及“特殊用户群详细约定”,例如:对部门经理级别用户提供移动通信服务的支持力度。因此服务基本约定有利于用户对IT部门所提供的服务达成共识,避免过高的期望和误解的产生。IT部门也能籍此作为服务成本核算(下面将提到)的基础。

IT部门与企业其他部门之间可以就IT服务进行约定,从而产生运营级别约定(OLA)。这种约定旨在保证该业务部门的日常运作,例如:保证市场部在外开研讨会时所使用IT设备的齐备和可用。此外IT服务上线之前一定要有相应的基础合同(UC)的支撑,如上网线路保证、硬件备机、软件技术支持等。此类合同一般由IT管理层与供应商签订。

IBM公司早在90年代初期就对IT服务水平管理给予了高度的重视,并始终在这一领域保持着领导者的地位。IBM的服务水平管理软件IBM Tivoli Service Level Advisor深刻体现了IBM公司在IT服务水平管理方面的思想,是辅助企业进行IT服务水平管理的利器。该软件可以划分为SLM服务器,报告服务器和管理服务器,可以完成包括数据收集,策略规划,制作报告,服务评价,服务水平升级等各种服务水平管理方面的功能。

2.财务管理

由于企业内部的IT资源是有限的也是有偿的,所以企业必须通过全面的成本核算、预算编制和支付安排等财务管理方法,来了解有多少资源,运营中需要多少资源,以及如何有效的使用这些资源。

2.1.成本核算

核算成本有助于了解IT 部门在创造其服务价值的同时所付出的成本代价。成本分类归纳为如下:

1.资本支出:是指固定资产购置或改良成本。如:服务器淘汰更换或网络系统升级通常属于资本支出范畴。

2.营运支出:包括维持IT 环境运转所需开支。如:机房里的24小时空调。

3.固定成本:是即使未发生任何业务,仍需为保持企业运营而耗用资金,例如、硬件设备维保和软件技术支持合同所涉及的款项。

4.变动成本:耗用资金随资源的使用状况而成比例变化,如:当配有热线电话的服务台资源使用频率上升时,客户所需负担的成本也相应提高。

对于IT相关的服务和资产,可按如下方式进行成本划分:

1.对于直接被用户使用的硬件成本,应按客户数或电脑数量进行分摊。

2.对于软件成本,应按分配给客户的许可证数量进行分摊。

3.路由器、交换机等网络设备,在成本不易按分配计算的情况下,可在企业范围内按比例分摊到各个部分或区域办公室。

成本划分之后,运维人员要分门别类的做相应的开销记录,可详细到什么部门或谁何时何处使用了/着什么IT服务,如某个手机号码通话的逐月详细清单等。这些开销最终可录入至配置管理数据库中。

2.2.预算编制

编制的预算并非是前期或上年度预算的简单翻版,而是IT部门协同财务部门通过与实际成本开销相比对,经过合理性评估,考虑内外部的变化因素,参照各种调价方案,从而修正并体现在新的年度预算中,起到对开销的合理预测以及IT决策提供参考依据的作用。

2.3.收支管理

收是指IT部门向内部其他部门转嫁核算出来的部分成本,以实现成本回收。而支是指IT管理层协同财务部门及时安排所有涉及到IT服务的向外支付,以保证企业获取到不间断的第三方服务。通过收支管理企业管理层可获知IT服务的合理花费用途与盈亏。

IBM公司在IT服务财务管理方面提供的产品主要包括Tivoli License Manager和Tivoli Inventory。

3.事件、流程管理

IT日常运维中时常企业里常存在这样的现象,某些问题或服务的处理方式和步骤过度的依赖责任人的个人经验,而无规范的流程可以依据或参考。这样导致问题处理或服务提供质量的参差不齐、因人而异,更不用说知识或技巧的沉淀与积累了。可见,IT运维最基础的要素就是要梳理流程,简单说来就是制定操作中可遵循和复用的步骤。

常见的运维流程包括事件、事故和问题三大类。事件是指某种IT服务或是监控项到达了门限值而发出的警告,以及某种操作所触发的通知等。比如说:磁盘空间即将耗尽,某个系统补丁完成,对某个用户登录密码的解锁操作等。事件一般包括信息和警告两种,信息多来自于系统的自动记录,因而无需运维人员采取响应。如:应用户请求通过磁带恢复了他在某个时间点误删的邮件,系统相应的自动留下操作记录。而警告则是由监控工具在达到某些门限设定值所产生,需要人工干预和调查。如某个实习生突发上传了大量文件导致网络磁盘使用率超过90%。事件虽然仅起到告知的作用,但运维人员不可忽视,如不处理,则可能陷入恶性循环,升级成事故和问题。

事故是指计划外的IT服务中断或服务质量骤降。如:远程虚拟桌面服务的中断导致正在出差用户无法访问企业内资源,或者是某用户在企业内网看在线视频而拖慢了整体的内、外网访问速度。事故也包括一些尚未产生影响的配置项(Configuration Items,下面将提到)丢失。如:做镜像互备的两个磁盘中的一个损坏,但服务尚未中断。对于IT人员来说,有时候能够快速找到那些虽“能治标但不能治本”的事故处理方法可能会比花更多的时间去研究症结更容易被用户所接受和认可。

如果说处理事故是利用应急措施尽快恢复IT服务的话,那么解决问题则是通过查找根源来预防中断的再次发生,以及对那些实在无法避免的尽量降低其影响的过程。如:通过架设备用线路来防止企业租用的电信网络突然中断而导致无法正常继续业务情况的发生。常见的“80-20原则”在此体现为:80%IT服务中断来自于20%的事故或问题。因此对于问题管理可用被/主动相互结合的方式,即:在日常运维阶段,被动的对出现的问题查找根本原因并予以解决;而在服务发布和变更阶段,主动并提前设计好可能出现的问题和处理流程以防范于未然,从而体现“磨刀不误砍柴功”的道理。

各种事件、事故和问题的发现也应做到主/被动相结合。即:由系统自动勘测主动以多种通讯方式告知相关角色人员和由一般用户或其他IT人员通过Web界面、电话或邮件等方式所被动产生。此处特别值得强调的是Web界面设计上应体现如下特点:

1. 各项条目尽可能的是菜单选择式,并有默认值。

2. 越容易提交就越会被用户所频繁使用,例如仅通过三五步操作便可完成。

3. 为每一个案子(ticket)都自动设置计时/倒计时,截止时间的功能以方便后期评估。

4. 设置优先级,影响范围,紧急程度等选项。

5. 预先设置的分类越有条理越丰富,越节约处理人员定位和解决的时间。

6. 设定一些预定义的处理路径并能准确读取系统目录里IT角色信息,以方便案子的自动流转和必要时各部门的联动。

可见,通过设定和规范流程,运维人员的处理步骤和责任显得更为清晰。

IBM公司在事件管理和问题管理领域一直保持着巨大优势,其该领域的拳头产品IBM Tivoli Enterprise Console (TEC)在业界享有盛誉。TEC通过对IT基础设施的宽度覆盖(包括网络、服务器、应用和安全),能够实现在一个点上对重要信息的整合。TEC可以进行智能化多级分析和关联,过滤掉容易使人产生误解或冗余的事件,突显重要信息,指导客户的支持人员快速准确地把握问题根本原因。它甚至可以根据用户的定义自动对突发事件作出响应。对于发送到控制台的重要事件,TEC提供可定制的显示方式确保用户的操作员只看到与他们工作相关的事件,帮助他们集中精力处理关键的事件,从而使用户能够处理最大、最复杂的环境。

4.配置管理

配置管理是涉及到企业“如何使用着”IT服务资源的问题。如果说变更管理则是一个IT服务的由静转动的话,那么配置管理是一个将软/硬件资产的使用状态记录在案的变动为静的操作过程。IT服务的配置信息是对于企业的IT日常运作与资产管理起着参考和支撑作用。建立一个配置项数据库(CMDB)是非常必要的,如果企业的规模较大,在各地有分支机构,则可将配置项数据库存放在本地并实现冗余备份和实时同步。该数据库可包括如下子库:

1. 最终硬件库(Definitive Hardware Store),主要是一些IT相关硬件设备的备件和库存等有形资产的配置和构成的详细信息,以及它们在实际运行环境中的对应部件信息。

2. 最终软件库(Definitive Software Library),主要是各种系统和软件等无形资产的版本号、许可证、配置项等最终批准版本信息。

3. 文档库,主要包括各种操作流程、技术参考文档、拓扑图、设备状态照片等无形资产的信息。

4. IT人员相关,主要包括对各种IT职能角色的定义,组织机构图,联系方式等信息。

数据库里存放的是带有特征属性的配置项(CI),并体现着相互依存、调用关系。该远程登录系统的范例如下表所示:

条目

内容信息

备注

唯一编号

650099743

系统自动分配

登记时间

201006281543

系统自动分配

类型ID

012502031

01内部服务,25物理上在北京,02软件库,031子库序号

服务名称

远程桌面系统

用户的称呼

版本号

2008

从属关系

1. 下辖亚洲,美洲,欧洲三个子系统;

2. 隶属于综合远程服务系统

支持语言

英文/中午/日文/韩文

安装地点

上海XX区服务器YY

供应商

思杰

服务热线:800-XXX-XXXX

配置项目历史

200020032008

超级链接可查询过往信息

连接关系

通过三层交换机(如SHSWL3012401025)的第XX端口连入内网

另附拓扑图

用途

用户在离开办公室内网的情况下,通过互联网远程登录进来,调用内网资源。

IT部门应当强化运维人员及时更新配置管理数据库的意志,并设置专人定期对配置项等信息进行审核。

IBM Tivoli Configuration Manager可以帮助客户全面控制企业的软件和硬件。它的软件分发模块能让用户从一个中心点将复杂的任务关键型应用程序快速有效地部署到多个位置。利用Tivoli Configuration Manager,客户可以跨越企业部署软件,实现跨平台、企业级库存管理。从产品包装、组织计划到安排发货、设备安装以及总结报告,这款发布管理软件提供了针对快速、集中应用部署和管理的一整套工具。它是强化桌面支持技术的强大手段,有助于降低客户的资产管理成本。

    其实IT运维是一个漫长的过程,运维人员就像球赛时的守门员,即使平时工作做得再好,前89分钟把门守得滴水不漏,但最后第90分钟漏了一个球进去、掉了链子,则前面一切功劳都被会被用户所抹杀甚至要追究责任。因此“工欲善其事,必先利其器”,IT部门应选择好全面易用的IT服务管理工具并合理部署的情况下,将其所提供的各种服务管理得有证可据、有约而循、有责可追、防范于未然,才能让用户对服务的评价理性多于感性。