运维流程
随着企业的发展壮大,业务系统和服务器数量的增多,需要建立完善而成熟的IT运维管理体制,通过流程管理,不断提高IT运维质量,实现高效运维,提升组织内IT服务满意度,实现运维自动化管理,特建立此流程制度。

运维内部流程
1、 根据业务上架,研发、测试、产品等部门的需求采用硬件采购机房选型流程;
2、 鉴于所有服务器采用redhat EL5(Centos5)系统,采用系统安装规范;
3、 根据实际情况,业务的上架,服务的搭建,建立监控流程;
(1)、运维人员针对业务上线,服务器机房上架,搭建业务环境;
(2)、针对主机性能和服务的监控,实现监控自动化;
监控自动化目的:
@维护事件提醒
通过对主机设备和应用的资源和活动的时时监控,当发生异常和超过阈值事件发生时候,系统自动启动报警和响应机制,第一事件通知相关责任人。
@系统健康检测
定期自动化地对现场设备硬件和应用系统进行健康巡检,配合远程运维管理团队实施对被 管理系统的健康检查和监控。
@维护报告生成
定期自动对系统做日志的收集分析,记录系统运行状况。同时针对不同的使用状况,进行客户化的系统性能参数采集和监控 ,通过阶段性的监控、分析和总结,定时提供系统的可用性、性能、系统资源利用状况分析报告。
根据实际业务情况监控系统服务器状态:
CPU:监控系统CPU的占用情况,如CPU的利用率等。
硬盘:磁盘活动时间、磁盘读写速率等指标。
内存:监控系统内存的状态,内存占用率等。
文件系统:实时监控文件系统的利用率,如根文件系统、var文件系统、tmp文件系统。
虚拟内存:监控虚拟内存的总量、利用率等。
进程:监控所有重要的进程的启动、停止和状态改变情况。
网络:监控服务器网络端口的丢包率、利用率、发送速率等指标。
日志:监控UNIX系统的syslog日志和window的Event Log。
端口:FTP端口、DNS端口等。
(3)鉴于监控程序的7×24小时的不间断运行,如遇故障,发动邮件和短信报警,运维人员需第一时间处理;
4、 运维人员在搭建业务环境时,需记录本次过程中的所有操作,参数更改,并形成文本记录,方便备案及人员接手。
5、在系统的开放使用过程中对于账户的管理,运维人员具有root权限,包括ftp、mysql等任何管理权限;
会以流程申请方式,申请账户开通,使用时间,注销日期等;

与其他部门配合流程
所有部门的内部网络桌面维护流程:
系统管理员接到故障申报需在10分钟内响应,半小时内解决,如遇特殊问题,需合理安排时间,并控制在4小时内解决问题。
行政部:
新员工入职由系统管理员推荐硬件配置,由行政部门采购,系统管理员负责验货,安装,分配ip,开通邮箱,给新人发送邮件通知,具体内容视情况而定。

业务上架基本流程图:

运维流程_系统管理员

硬件采购基本流程图:

运维流程_运维_02

故障解决流程图:

运维流程_运维_03

可能用到的工单、规范标准和报表:
权限开通单
系统安装标准
部门配合规范
故障汇总表