Brocade Switches –如何确定是SFP 或是光纤线导致“Loss of Link(丢失链接)”问题

问题描述:

一个有问题的SFP或光纤线会造成丢失与主机,存储或另一台交换机的连接问题,在交换机的error log中可能有如下显示:

2007/12/06-23:50:56, [FW-1424], 7682,, WARNING, SWITCH_1, Switch status changed from HEALTHY to MARGINAL

2007/12/06-23:50:56, [FW-1436], 7683,, WARNING, SWITCH_1, Switch status change contributing factor Marginal ports: 1 marginal ports. (Port(s) x )

问题解决方法:

首先确定是由于SFP还是光纤线的问题造成链接丢失,执行下面的命令:

检查porterrshow命令的输出:

如果仅是"enc out "单独报错主要是因为光纤线的问题。

如果是"enc out "和"crc err "组合报错主要是GBIC/SFP的问题。

要确定是源端还是目标端SFP报错,需要再检查"portshow x" 的输出(x代表有问题端口号)

如果下面两对参数"Lr_in " 和"Ols_out " 以及"Lr_out " 和"Ols_in " 的值相同,则表明SFP运行正常

如果一个数值明显高于另一个, 连接问题可能出现在交换机连接的对端("in" > "out") 或是交换机本身("out" > "in").

注意:如果”Ols_in”的值高于“Lr_out”的值,问题的根源大多数情况与连接的设备相关,(sending those offline sequences) 并且交换机通过"link reset"对此做出响应。

参数解释:

enc_out -> Encoding error outside of frames

crc err -> Frames with CRC errors

Lr_in -> Link reset In (primitive sequence), does not apply to FL_Po rt

Lr_out -> Link reset Out (primitive sequence), does not apply to FL_P ort

Ols_in -> Offline reset in (primitive sequence), does not apply to FL _Port

Ols_out -> offline reset out (primitive sequence), does not apply to F L_Port

Porterrshow用来展示交换机上面所有端口错误统计信息,详细解释如下:

Frame(tx/rx):tx代表端口发送的数据帧,rx代表端口收到的数据帧。

Enc_in:8b/10b或者64b/6bb数据帧帧内编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个错误。

Crc_err:数据帧CRC校验错误。根据实际统计,如果crc_err和 enc_out同时出现,通常代表GBIC/SFP有硬件问题。

Crc_g_eof:数据帧CRC校验错误,但是数据帧EOF是正常的。

Too_long:数据帧总长度超过2148字节或者workload长度超过2112字节。

Too_short:小于36个字节长度的帧(workload字节长度等于0)。

Bad_eof:数据帧EOF错误。

Enc_out:8b/10b或者64b/66b数据帧帧外编码错误。在正常情况下20分钟会出现一次这个报错,交换机端口(offline/online)会产生这个报错,另外在HBA卡和交换机端口速率不同,而又

使用的是静态配置端口速率的时候也会产生这个错误。单一的这个报错反映光纤线可能有问题;

如果是Enc_out和crc_err同时报错代表GBIC/SFP有硬件问题。

Disc c3:Class 3被交换机丢弃的数据帧。常见情形帧的目标地址不可达或者源端口还没有FLOGI交换机。这个参数仅仅代表有丢包发生,不能用来判定问题的具体原因。

Link-fail:当交换机端口在LR Receive State时间超过R_A_TOV就会产生这个错误。这个错

误经常和loss of signal或者loss of sync同时出现。

Loss sync:bit或者transmission-word synchronization失败都会产生这个错误。当交换机端口(offline/online)会产生这个问题。

Loss sig:链路收不到信号。当交换机端口(offline/online)会产生这个问题。

Frjt:用于class 2。代表数据帧无法处理。

Frbsy:用于class 2。数据帧无法在E_D_TOV时间内传输出去,超时后会产生这个问题。

小结

1.L oss sync,Loss sig,Link-fail这三个错误在链路初始化的过程中都会产生。当链路不稳定时候,通常这些错误计数器比较高。

2.Frjt,Frbsy用于class 2。SAN存储通常使用的是class 3,所以这两个错误很少见。

3.Enc_out和Crc_err两个计数器同时比较高,通常需要更换GBIC/SFP。

4.Disk c3只能代表链路有丢包现象。原因可能有很多种,具体问题具体分析。如果这个值过高,链路性能可能会受到影响。

步骤:
1.先运行,porterrshow 查看口状态,然后'statsclear' and 'slotstatsclear'
2.查看:porterrshow,看下port 口的情况
3.收集supportshow ,supportsave
4.查看sfpshow -all 可以看23口倒数第二行RX Power状态,若较大就正常
  sfpshow -all       :

=============
Port  0:
=============
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c402000000000 200,400,800_MB/s M5,M6 sw Inter_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:3    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: BROCADE         
Vendor OUI:  00:05:1e
Vendor PN:   57-1000012-01   
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     001a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAA210473397682 
Date Code:   101127  
DD Type:     0x68
Enh Options: 0xf0
Status/Ctrl: 0x92
Alarm flags[0,1] = 0x0, 0x0
Warn Flags[0,1] = 0x0, 0x40
                                          Alarm                  Warn
                                      low        high       low         high
Temperature: 34      Centigrade     -15         100        -10         95
Current:     7.112   mAmps          2.000       8.500      2.000       8.500  
Voltage:     3286.1  mVolts         2800.0      3800.0     2970.0      3630.0 
RX Power:    -7.2    dBm (190.9 uW) 0.0    uW   6550.0 uW  49.0   uW   1100.0 uW
TX Power:    -2.3    dBm (588.7 uW) 50.0   uW   800.0  uW  100.0  uW   700.0  uW