Brocade Switches –如何确定是SFP 或是光纤线导致“Loss of Link(丢失链接)”问题
问题描述:
一个有问题的SFP或光纤线会造成丢失与主机,存储或另一台交换机的连接问题,在交换机的error log中可能有如下显示:
2007/12/06-23:50:56, [FW-1424], 7682,, WARNING, SWITCH_1, Switch status changed from HEALTHY to MARGINAL
2007/12/06-23:50:56, [FW-1436], 7683,, WARNING, SWITCH_1, Switch status change contributing factor Marginal ports: 1 marginal ports. (Port(s) x )
问题解决方法:
首先确定是由于SFP还是光纤线的问题造成链接丢失,执行下面的命令:
检查porterrshow命令的输出:
如果仅是"enc out "单独报错主要是因为光纤线的问题。
如果是"enc out "和"crc err "组合报错主要是GBIC/SFP的问题。
要确定是源端还是目标端SFP报错,需要再检查"portshow x" 的输出(x代表有问题端口号)
如果下面两对参数"Lr_in " 和"Ols_out " 以及"Lr_out " 和"Ols_in " 的值相同,则表明SFP运行正常
如果一个数值明显高于另一个, 连接问题可能出现在交换机连接的对端("in" > "out") 或是交换机本身("out" > "in").
注意:如果”Ols_in”的值高于“Lr_out”的值,问题的根源大多数情况与连接的设备相关,(sending those offline sequences) 并且交换机通过"link reset"对此做出响应。
参数解释:
enc_out -> Encoding error outside of frames
crc err -> Frames with CRC errors
Lr_in -> Link reset In (primitive sequence), does not apply to FL_Po rt
Lr_out -> Link reset Out (primitive sequence), does not apply to FL_P ort
Ols_in -> Offline reset in (primitive sequence), does not apply to FL _Port
Ols_out -> offline reset out (primitive sequence), does not apply to F L_Port
Porterrshow用来展示交换机上面所有端口错误统计信息,详细解释如下:
Frame(tx/rx):tx代表端口发送的数据帧,rx代表端口收到的数据帧。
Enc_in:8b/10b或者64b/6bb数据帧帧内编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。
Crc_err:数据帧CRC校验错误。根据实际统计,如果crc_err和 enc_out同时出现,通常代表GBIC/SFP有硬件问题。
Crc_g_eof:数据帧CRC校验错误,但是数据帧EOF是正常的。
Too_long:数据帧总长度超过2148字节或者workload长度超过2112字节。
Too_short:小于36个字节长度的帧(workload字节长度等于0)。
Bad_eof:数据帧EOF错误。
Enc_out:8b/10b或者64b/66b数据帧帧外编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在HBA卡和交换机端口速率不同,而又
使用的是静态配置端口速率的时候也会产生这个错误。单一的这个报错反映光纤线可能有问题;
如果是Enc_out和crc_err同时报错代表GBIC/SFP有硬件问题。
Disc c3:Class 3被交换机丢弃的数据帧。常见情形帧的目标地址不可达或者源端口还没有FLOGI交换机。这个参数仅仅代表有丢包发生,不能用来判定问题的具体原因。
Link-fail:当交换机端口在LR Receive State时间超过R_A_TOV就会产生这个错误。这个错
误经常和loss of signal或者loss of sync同时出现。
Loss sync:bit或者transmission-word synchronization失败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。
Loss sig:链路收不到信号。当交换机端口(offline/online)会产生这个问题。
Frjt:用于class 2。代表数据帧无法处理。
Frbsy:用于class 2。数据帧无法在E_D_TOV时间内传输出去,超时后会产生这个问题。
小结
1.L oss sync,Loss sig,Link-fail这三个错误在链路初始化的过程中都会产生。当链路不稳定时候,通常这些错误计数器比较高。
2.Frjt,Frbsy用于class 2。SAN存储通常使用的是class 3,所以这两个错误很少见。
3.Enc_out和Crc_err两个计数器同时比较高,通常需要更换GBIC/SFP。
4.Disk c3只能代表链路有丢包现象。原因可能有很多种,具体问题具体分析。如果这个值过高,链路性能可能会受到影响。
步骤:
1.先运行,porterrshow 查看口状态,然后'statsclear' and 'slotstatsclear'
2.查看:porterrshow,看下port 口的情况
3.收集supportshow ,supportsave
4.查看sfpshow -all 可以看23口倒数第二行RX Power状态,若较大就正常
sfpshow -all :
=============
Port 0:
=============
Identifier: 3 SFP
Connector: 7 LC
Transceiver: 540c402000000000 200,400,800_MB/s M5,M6 sw Inter_dist
Encoding: 1 8B10B
Baud Rate: 85 (units 100 megabaud)
Length 9u: 0 (units km)
Length 9u: 0 (units 100 meters)
Length 50u: 5 (units 10 meters)
Length 62.5u:3 (units 10 meters)
Length Cu: 0 (units 1 meter)
Vendor Name: BROCADE
Vendor OUI: 00:05:1e
Vendor PN: 57-1000012-01
Vendor Rev: A
Wavelength: 850 (units nm)
Options: 001a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max: 0
BR Min: 0
Serial No: UAA210473397682
Date Code: 101127
DD Type: 0x68
Enh Options: 0xf0
Status/Ctrl: 0x92
Alarm flags[0,1] = 0x0, 0x0
Warn Flags[0,1] = 0x0, 0x40
Alarm Warn
low high low high
Temperature: 34 Centigrade -15 100 -10 95
Current: 7.112 mAmps 2.000 8.500 2.000 8.500
Voltage: 3286.1 mVolts 2800.0 3800.0 2970.0 3630.0
RX Power: -7.2 dBm (190.9 uW) 0.0 uW 6550.0 uW 49.0 uW 1100.0 uW
TX Power: -2.3 dBm (588.7 uW) 50.0 uW 800.0 uW 100.0 uW 700.0 uW