网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。

网络故障如何去排查,去排查错误呢?思路是啥?该如何解决?


一 故障分类

02 网络故障排错流程_服务器

二 故障排除思路

02 网络故障排错流程_服务器_02

三 故障排除流程

  1. 报告故障
  • 详细记录故障发生的时间、地点、影响范围和初步描述。
  • 确定报告人和联系方式。
  • 网络工程师在现场的话,及时去机房查看原因。
  1. 确认故障
  • 与用户沟通,获取故障的详细描述和影响。
  • 确认故障是否还在持续。
  • 明确故障的出现是否影响业务
  1. 收集信息
  • 收集系统日志、错误报告、用户反馈、监控数据等。
  • 确定故障发生的环境,如操作系统、软件版本、硬件配置等。
  1. 判断分析
  • 分析收集到的信息,确定故障的类型(如硬件故障、软件缺陷、配置错误等)。
  • 确定故障的严重性和紧急性。
  1. 原因列表
  • 根据分析结果,列出所有可能的原因。
  • 对每个原因进行可能性评估。
  1. 故障评估
  • 评估故障对业务的影响,如数据丢失、服务中断等。
  • 确定故障处理的优先级。
  1. 逐一排查
  • 根据原因列表,从最可能的原因开始排查。
  • 使用排除法,逐一测试和验证。
  1. 解决故障
  • 确定故障原因后,采取相应的措施解决问题。
  • 可能包括重启系统、更换部件、修复代码、调整配置等。
  1. 收尾工作
  • 验证故障是否已经完全解决,确保系统恢复正常运行。
  • 更新故障处理记录,包括故障描述、处理过程和解决方案。
  • 通知相关人员故障已解决,并提供必要的后续指导。
  1. 文档记录
  • 详细记录故障处理的每一步,包括故障原因、解决方案和预防措施。
  • 将记录保存在知识库或文档管理系统中,供未来参考。
  1. 反馈和改进
  • 与团队分享故障处理经验,讨论如何改进。
  • 根据故障处理的经验,提出改进措施,如更新操作手册、优化监控系统、增强培训等。
  1. 预防措施
  • 根据故障原因,制定预防措施,如定期检查、升级系统、改进设计等。
  • 实施预防措施,减少未来故障的发生。
  1. 后续跟进
  • 定期回顾故障处理过程,评估改进措施的效果。
  • 与用户保持沟通,确保他们对解决方案满意,并收集他们的反馈。

02 网络故障排错流程_故障排除_03


企业中存在多个部门,例如 财务、人事、后勤、市场、 研发等, 这些部门之间 的网络有互联 互访 均需求。为了保障网络的正常运行,企业可能存在如下情况:


▫大中型企业成立网络维护部门,构建专业的网络团队。


▫小型企业为了节省成本,一般不存在单独的网络维护部门,而是将网络托管给专业的网络维护公司。


▫求助设备生产商,拨打厂商的售后服务电话。


一般情况 下网络故障的 第一感知人员并非网络维护人员,而是其他业务相关的各个 部门人员。网络工程师经常接到各种求助电话, 例如“电脑突然无法上网” 、“网页无法正常显示”、“游戏没法玩了” ……



3.1 报告故障-主动与客户那边沟通


故障报告者

姓名、所在的部门、职位级别、所负责的工作内容、使用电脑的位置(楼层、房间、无线接入还是有线接入)、在使用电脑访问什么网站时发现的问题。

故障频率

故障是突发的、偶尔的、还是频繁的。

用户操作

出现故障之前和之后,用户对自己的终端做了哪些操作,如是否更改了IP地址和DNS、是否安装了桌面防火墙软件、安全控制软件等。


3.2 确认故障的的类型归属哪一种-明确网络故障归属与哪一种类型

•确认故障的四个要素:
▫故障的主体:哪个网络业务出现了故障。
▫故障的表现:故障的现象是什么样的。
▫故障的时间:用户是什么时间发现的故障,以及专业人员推测的故障出现的真实时间。
▫故障的位置:哪个网络组件出现了故障。
•对故障现象进行准确的描述。
•最后应确认该故障是否属于自己的负责范围,即自己是否被赋予了相应的权限来处理该故障。

3.3 收集信息-收集故障信息

•需要收集哪些信息:
▫收集信息阶段主要是收集与故障相关的信息,如文档、网络变更情况等。
•如何收集这些信息:
▫使用设备自身的操作命令;使用信息收集工具,如抓包工具、网管软件等。
•获取授权:
▫在对信息安全要求较高的网络环境中,对信息的收集是需要得到授权的,有时需要签署书面的授权文件。
•收集信息阶段的风险评估:
▫有些收集信息的操作,如对路由器或交换机执行”debug”命令,会导致设备的CPU占用率过高,严重的情况下甚至会使设备停止响应用户的操作指令,从而引入额外的故障现象。所以在收集信息的时候应评估这些风险,平衡引入新故障的风险与解决现有故障的紧迫性之间的关系,并明确的告知用户这些风险,由用户来决定是否进行风险较大的信息收集工作。

3.4 判断分析-更据客户那边收集的信息

02 网络故障排错流程_运维_04

3.5  通过上面收集i信息,来判断得出故障原因列表

02 网络故障排错流程_故障处理_05


3.6 故障评估

02 网络故障排错流程_运维_06

3.7 更据故障评估的可能性,进行逐一分析

02 网络故障排错流程_服务器_07

3.8  解决客户那边问题-解决故障


•如果通过逐一排查找到了故障的根本原因,并排除了故障,网络故障排除的流程就可以结束了。


•复杂的网络环境中,故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障。


02 网络故障排错流程_运维_08

3.9  扫尾工作

02 网络故障排错流程_运维_09