重新认识系统运维

无论工作日还是长假我们都要清楚的认识到IT运维所包含的内容和范围,当然每个企业都有不同的业务模式,IT系统的运维内容会有所不同,但是广义上对于IT系统运维理论指导则包含八个主要方面。

1.设备管理,主要是对网络设备、服务器设备、操作系统运行状况进行监控和管理;

2.应用/服务管理,包括各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;

3.数据/存储/容灾管理,主要针对系统和业务数据进行统一存储、备份和恢复;

4.业务管理,包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理, 主要关注该业务系统的 CSF(关键成功因素 Critical Success Factors)和KPI(关键绩效指 标Key Performance Indicators);

5.目录/内容管理,该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理,如企业门户发布的对公对私的公告、行文等;

6.资源资产管理,管理企业中各 IT 系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的;

7.信息安全管理,目前信息安全管理根据国际标准涵盖了信息安全管理的十大控制方面,36个控制目标和 127种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

8.日常工作管理,主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段.

IT系统运维是一项系统的工程,内容虽然繁多,不是三言两语的简单描述就可尽收与本文。理论毕竟是对具体工作的指导,但明确了工作的重要性和复杂度,能更好的帮助企业规划自身的运维工作,尤其是长假期间运维工作。

盘点系统、设备,规划运维点

平日中IT系统的运维工作纵然有完善的巡查、记录体系,但遇到长假运维人员不能像正常工作日一样不停的关注系统运行的状态,因此需要彻底清点盘查系统和设备。清点不意味着简单计数,常见的有以下几方面:

1.盘点计数,包括有多少套应用/服务在运行中,多少应用可以再长假期间停止服务。另外,还应业务系统中流转的业务流程数等能够量化的业务数据;

2.盘点状态,主要针对应用/服务和设备两方面,前者在停机前是否是完整系统、版本号、是否在此次停机过程中部署更新等状态信息,后者主要记录硬件设备环境及运行状态如内存、硬盘状态是否有损坏更换等;

3.规划压力调整设备投入,根据业务在长假期间不间断服务要求,结合平时休息日业务系统的压力进行预估,规划设备投入量保证业务不间断的基本要求。

4.规划运维等级和工作分摊,按照工作日正常运维工作等级适当调整级别和工作分配,将必要运维工作进行分摊,尽量减少人员的直接占用。

5.规划设备检修更换,针对硬件设备的更换在很多要求IT服务7*24小时的企业中多半会在夜间进行,也有的设备因为应用的重要性和压力等原因在某些硬件设备允许的情况下是带病工作的,因此可以规划长假前将存在隐患的硬件设备进行维护与更换。

6.规划UPS承载,UPS全称Uninterruptible Power Supply顾名思义不间断电源,在长假期间难免遇到突发情况,UPS的作用不言而喻。因为在工作日服务器全部运转情况下UPS可能维持几十分钟或几小时,而在长假期间能够保证多少台服务器运转多少时间是需要根据实际情况重新计算并规划的。