ITIL学习-知识管理和服务级别管理 ITIL学习-变更管理和配置管理 ITIL学习-问题管理和访问管理 ITIL学习-事故管理 ITIL学习-运营、技术、应用管理和技术管理 ITIL学习-作用、原则、生命周期
事故管理
事故:it服务无计划中断或者it服务质量下降
目标:尽快恢复正常服务运营(asap)
来源:告警,用户通告,技术人员
价值:检测和解决事故的能力,减少业务停机时间,支持服务期的高可用性
事故管理原则和基本概念
时间范围
响应时间:多长时间回复第一条数据给用户
解决时间:恢复故障的时长,包含所有涉及部门,包含供应商和技术提供商的处理时间。
临时措施:
临时的解决方法
变更请求:
结构化解决问题
事故管理流程
1、事故记录
2、是否是服务请求,比如账户不能登录,但也许是密码需要重置,而这不能算是事故。
3、优先级:评定优先级,如果是重大问题需要走重大故障应急流程
4、初始诊断:大概了解故障点,怎么出现的故障
5、技术解决:利用技术解决问题
6、检查:写报告和通知相关人员
事故记录与分类
需要定期开例会,回顾上一个阶段的工作
事故日志记录
- 详细、包含状态
- 使用工具支持
分类
- 分类编码规则
- 按级别分类
- 定期回顾并不断完善
优先级
综合考虑如下两个方面
- 紧急程度:
1、系统重要性
2、出故障时间
- 影响程度:
1、事故程度
2、影响范围
事故升级
升级:如果某个事故在规定时间内不能给出解决,则需要更有经验的和更高权限的人员参与。
升级的方式:1、职能(技术)升级2、结构(管理)升级
所谓升级就是在当前不能处理问题的时候,去找更厉害的人呢,只能就是找技术大牛,结构升级是找领导。
事故管理-事故关闭
由服务台负责
检查内容
- 核实分类并修正
- 用户满意度调查
- 事故文档
- 是否记录问题
- 正是关闭
事故管理-与其他流程的关系
事故管理:快速解决已经发生的问题
问题管理:深入研究问题的内在原因,并且要根本性解决频繁发生的故障
事故管理的挑战
- 如何尽早发现事故
- 要求技术人员同用户一样记录所有事故。并鼓励用户使用自助平台
- 问题与已知错误信息的有效性
- 与配置管理系统的集成
- 与服务级别管理流程的集成
事故经理:
推动事故流程的执行,监控和改进事故流程,管理重大事故,开发和维护相关系统,一般由服务台主管担任。
关键度量指标
1、事故总数
2、事故状态
3、当前未完成数量
4、重大事故数量和比例
5、平均解决时间
6、sla达标率
7、每个事故的成本
8、重开事故的数目