dis diagnostic-information
输入该命令,则会自动搜集所有的信息
分享 | 网络设备例行维护(巡检)建议
网络要稳定运行,不仅仅是靠设备本身性能,也需要通过日常的维护和监测发现设备运行隐患,这是非常必要的。
本期以华为交换机为例,其他型号、其他友商可参考类似内容。
1
设备环境检查
一、建议维护周期:日
1、
检查项:机房内空调运行是否正常
评估标准和说明:空调可持续稳定运行,使机房温度保持在设备可承受范围内。
2、
检查项:电源连接是否正常可靠
评估标准和说明:电源线应正确的连接到设备的指定位置上,且连接牢固。设备的电源指示灯应常亮绿色。
二、建议维护周期:周
1、
检查项:机房温度、湿度状况
评估标准和说明:
工作环境温度:0℃~45℃。
机房的长期工作环境相对湿度应在5%RH~85%RH之间,不结露;短期工作环境相对湿度应在0%RH~95%RH之间,不结露。
若机房的环境温度长期不能满足要求,应考虑检修或更换机房的空调系统。
若机房的相对湿度过大,应考虑为机房安装除湿设备;若机房的相对湿度过小,应考虑为机房安装加湿设备。
2、
检查项:散热状况
评估标准和说明:
设备正常工作时,要求保持风扇正常运转(清理风扇期间除外),擅自关闭风扇会引起设备温度升高,并可能损坏单板。
设备周围无杂物。
三、建议维护周期:月
1、
检查项:线缆布放
评估标准和说明:
电源线与业务线缆分开布放。电源线布放整齐、有序。业务线缆布放整齐、有序。
2、
检查项:线缆标签
评估标准和说明:线缆标签清晰、准确,符合规范。
2
设备基础信息检查
一、建议维护周期:月
1、
检查项:设备运行的版本
检查方法:<HUAWEI> display version
评估标准和说明:单板PCB版本号、软件版本号与要求相符。
2、
检查项:检查软件包
检查方法:<HUAWEI> display startup
评估标准和说明:设备正在使用及下次启动时将要加载的产品版本软件和配置文件的文件名正确。
3、
检查项:License信息
检查方法:<HUAWEI> display license
评估标准和说明:
License文件已经激活,且“Expired date”为“PERMANENT”(即永久有 效)或在运行截至日期之内
4、
检查项:检查补丁信息。
检查方法:<HUAWEI> display patch-information
评估标准和说明:
补丁文件必须与实际要求一致,建议加载华为公司发布的该产品版本对应的最新的补丁文件。
补丁必须已经生效,即补丁的总数量和正在运行的补丁数量一致。
5、
检查项:检查系统时间
检查方法:<HUAWEI> display clock
评估标准和说明:
时间应与当地实际时间一致(时间差不大于5分钟),便于故障时通过时间精确定位。
如果不合格,请执行clock datetime命令修改系统时间或者配置NTP同步网络时间。
6、
检查项:CF卡中的文件(框式)
检查方法:
<HUAWEI> dir cfcard:
<HUAWEI> dir slave#cfcard:
评估标准和说明:
CFcard里的文件都必须是有用的,否则请执行delete/unreserved命令删除。
7、
检查项:检查Flash空间(盒式)
检查方法:<HUAWEI> dir flash:
评估标准和说明:Flash里的文件都必须是有用的,否则请执行delete/unreserved命令删 除。
8、
检查项:检查配置正确性
检查方法:<HUAWEI> display current-configuration
评估标准和说明:通过查看当前生效的配置参数,验证设备配置是否正确。
9、
检查项:检查debug开关
检查方法:<HUAWEI> display debugging
评估标准和说明:设备正常运行时debug开关应该全部关闭。
10、
检查项:检查配置是否保存
检查方法:<HUAWEI> compare configuration
评估标准和说明:业务配置正常后,要进行保存。运行配置需要与保存过的配置相同。
3
设备运行检查
一、建议维护周期:日
1、
检查项:单板运行状态
检查方法:<HUAWEI> display device
评估标准和说明:
重点关注单板在位信息及状态信息是否正常,当显示如下信息时表示为正常:
单板“Online”为“Present”
单板“Power”为“PowerOn”
单板“Register”为“Registered”
单板“Status”为“Normal”
2、
检查项:风扇状态
检查方法:<HUAWEI> display fan
评估标准和说明:“Register”为“Registered”表示正常。
3、
检查项:电源状态
检查方法:<HUAWEI> display power
评估标准和说明:“state”为“supply”时表示正常。
4、
检查项:告警信息
检查方法:<HUAWEI> display alarm all
评估标准和说明:
无告警信息。
如果有告警,需要记录,对于严重以上告警需要立即分析并处理。
5、
检查项:CPU状态
检查方法:<HUAWEI> display cpu-usage
评估标准和说明:各模块的CPU占用率正常。如果CPU占用率如果超过80%,建议重点关注。
6、
检查项:内存占用率
检查方法:<HUAWEI> display memory-usage
评估标准和说明:
内存占用情况正常,如果“Memory Using Percentage”超过60%时需要关注。
7、
检查项:日志信息
检查方法:
<HUAWEI> display logbuffer
<HUAWEI> display trapbuffer
评估标准和说明:
不存在异常信息。
8、
检查项:温度检查
检查方法:<HUAWEI> display temperature all
评估标准和说明:
各单板温度小于门限值5℃,状态为Normal状态。
二、建议维护周期:月
1、
检查项:FTP网络服务端口
检查方法:<HUAWEI> display ftp-server
评估标准和说明:不使用的FTP网络服务端口要关
2、
检查项:主用板/备用板的备份状态
检查方法:<HUAWEI> display switchover state
评估标准和说明:
主备板同时存在时,要同时有主备板的显示状态信息。倒换完成,设备开始正常工作后,主用板需要显示为“realtime or routine backup”表示正常。
4
端口内容检查
一、建议维护周期:周
1、
检查项:端口错包
检查方法:<HUAWEI> display interface
评估标准和说明:业务运行时,要检查端口有无错包,包括CRC错包等。
2、
检查项:端口协商模式
检查方法:<HUAWEI> display interface
评估标准和说明:端口协商模式正确,两边端口要一致,不能有半双工模式。
3、
检查项:端口配置
检查方法:<HUAWEI> display current-configuration interface
评估标准和说明:接口的配置项合理,如接口协商模式、速率、隔离、限速等。
4、
检查项: 端口状态
检查方法:<HUAWEI> display interface brief
评估标准和说明:端口的Up/Down状态满足规划要求。
5、
检查项:端口统计数据
检查方法:执行display ip interface 命令。分两次隔5分钟后收集数据,然后比较
评估标准和说明:正常情况下,两次的数据没有增长,且基数不大于500。
5
业务检查
一、建议维护周期:周
1、
检查项: 组播成员接口和路由器接口信息
检查方法:<HUAWEI> display igmp-snooping port-info
评估标准和说明:静态成员接口、动态成员接口、静态路由器接口和动态路由器接口的信 息正确。
2、
检查项: 组播报文统计信息
检查方法:<HUAWEI> display igmp-snooping statistics vlan
评估标准和说明:VLAN接收/发送的IGMP报文和PIM Hello报文个数,以及所有VLAN内 发生的二层事件次数统计合理。
3、
检查项: 组播转发表信息
检查方法:
执行display l2-multicast forwarding-table命令查看二层组播转发表项。
执行display multicast forwarding-table命令查看三层组播转发表项。
评估标准和说明:
组播转发表项正确。
4、
检查项: 组播路由协议
检查方法:执行display multicast routing-table命令。
评估标准和说明:
域内组播路由协议采用PIM-SM。
与组播相连的接口都必须要使能IGMP。
5、
检查项: DHCP Snooping绑定表
检查方法:<HUAWEI> display dhcp snooping user-bind all
评估标准和说明:
静态表项和动态表项正确。
6、
检查项: MAC地址表信息
检查方法:<HUAWEI> display mac-address
评估标准和说明:MAC地址表信息正确。
7、
检查项: 路由表信息
检查方法:<HUAWEI> display ip routing-table
评估标准和说明:
具有默认路由或者其他精确路由,便于故障时候可以远程定位。
对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异)
8、
检查项: OSPF错包情况
检查方法:执行display ospf error命令。分两次隔5分钟后收集数据,然后比较。
评估标准和说明:正常情况下,两次的数据没有增长。
9、
检查项: VRRP状态
检查方法:
执行display vrrp命令。
执行display vrrp statistics命令。
评估标准和说明:
“State”不为“Initialize”状态。
备份组中的设备的VRRP状态“State”不能同时为“Master”。
“Checksum errors”、“Version errors”和“Vrid errors”为零。
10、
检查项: 防攻击检测
检查方法:执行display current-configuration | include car命令。
评估标准和说明:
应该有防攻击的配置。
如果未配置,请使用car命令为设备配置防攻击功能。具体步骤请参见《交换机配置指南-安全》中的“本机防攻击配置”。
11、
检查项: MSTP状态
检查方法:执行display stp brief命令。
评估标准和说明:
指定端口和根端口的“STP State”为“FORWARDING”。
备份根端口的“STP State”为“DISCARDING”。
12、
检查项: MST域配置信息
检查方法:执行display stp region-configuration命令。
评估标准和说明:
查看交换机上当前生效的MST域配置信息。
输出内容包括:域名、域的修订级别、VLAN与生成树实例的映射关系以及配置的摘要。
13、
检查项: MSTP拓扑变化
检查方法:执行display stp topology-change命令。
评估标准和说明:
查看MSTP拓扑变化相关的统计信息。
如果设备拓扑变化次数递增,则可以确定网络存在震荡。
14、
检查项: TC/TCN报文收发计数
检查方法:执行display stp tc-bpdu statistics命令。
评估标准和说明:查看实例端口的TC/TCN报文收发计数。
15、
检查项: LDT环路检测
检查方法:
执行display loop-detection命令。
执行display loop-detection [ interface { interface-type interface-number | interface-name }]
评估标准和说明:
LDT功能配置正常的情况下:
“Following ports are block for loop”、“Following ports are shutdown for loop”下无端口,证明启动环路检测的VLAN中没有出现环路。
端口的“Status”为“Normal”,证明该端口所属的VLAN没有出现环路。
16、
检查项:
OSPF邻居状态
IS-IS邻居状态
BGP邻居状态
检查方法:
执行display ospf peer命令。
执行display ospf peerlast-nbr-down命令。
执行display isis peer 命令。
执行display bgp peer命令。
评估标准和说明:
OSPF邻居状态:
邻居状态“State”为“Full”。
正常情况下,要求该邻居建立时间不应该小于一天。
正常情况下,没有邻居down掉。
IS-IS邻居状态:
邻居状态“State”为“Up”。
BGP邻居状态:
邻居状态“State”为“Established”。
17、
检查项: 路由信息
检查方法:
执行display ip routing-table命令。与前一次记录的路由信息比较,检查是否由明显变化。
并可抽样对其中的路由项进行ping或者tracert操作。
评估标准和说明:
正常情况下,路由表中有默认路由。
对于处于一个网络中同一层次的设备,如果运行相同的路由协议,各设备上的路由条目应该相差不大(因为静态路由的配置差异,路由条目上可能存在一定差异)。
18、
检查项: OSPF Router ID
检查方法:执行display current-configuration configuration ospf或者display router id命令。
评估标准和说明:
指定Router ID为Loopback口地址。
如未分配Loopback口地址,则要指定为上行口地址或其他Down掉概率最小接口的地址。
配置的Router ID必须与OSPF正在使用的Router ID一致。
19、
检查项: OSPF路由引入配置
检查方法:执行display current-configuration configuration ospf命令。
评估标准和说明:尽量使用network发布路由,也可以通过import方式引入路由。
20、
检查项: OSPF虚连接
检查方法:执行display ospf vlink命令。
评估标准和说明:不允许使用虚连接。
21、
检查项: OSPF STUB区域
检查方法:执行display current-configuration configuration ospf命令。
评估标准和说明:STUB区域,不能有import-route命令。
22、
检查项: BGP路由发布
检查方法:执行display current-configuration configuration bgp命令。
评估标准和说明:
除了VPN路由,禁止采用import-route命令发布IP路由。
应使用network命令和ip route-static ip-address { mask | mask-length } null0命令发布路由。
23、
检查项: IBGP邻居
检查方法:执行display current-configuration configuration bgp命令。
评估标准和说明:基于协议稳定性的考虑,建议使用Loopback这类状态总为UP的接口建立邻居关系。
24、
检查项: ISIS路由引入
检查方法:执行display current-configuration configuration isis命令。
评估标准和说明:尽量使用network-entity发布路由,也可以通过import方式引入路由。
25、
检查项: VLAN信息
检查方法:执行display vlan命令。
评估标准和说明:查看所有VLAN的基本信息。
26、
检查项:CPCAR流量检查
检查方法:
<HUAWEI> reset cpu-defend statistics all
<HUAWEI> display cpu-defend statistics all
评估标准和说明:
CPCAR统计不出现丢包计数。
阅读 86
赞在看
写下你的留言