有时会发生网络丢包现象,此处的丢包有两种,真正意义上的丢包和逻辑丢包(此处以tcp协议栈丢包为例)。之前falcon-agent也上报了相应的指标,在此处对一些疑问给出尽量详细的解释。
二、linux系统pakcet接收的过程
过程简单概括为
网卡收到包以后通过DMA传至ring buffer
网卡触发硬件中断,中断处理函数调用包接受软中断(softirq)
Softirq检测各cpu的网卡poll list,并轮询相应网卡的ring buffer
包从相应packet desciptor 中移到更上一层处理,并把该packet descriptor重置
真实的丢包就是说这三个阶段的任一阶段收到了包,但因为某些原因把它丢弃了。
三、发生真实丢包的原因
上述过程均可能发生丢包,
当ring buffer满了并且kernel softirq并不能及时处理后续的进来的包,那就会导致丢包。可以通过ethtool -G eth1 rx number增大receive buffer的值可以缓解丢包,同理也可以设置transfer buffer。
当socket backlog满了导致丢包,可以设置/proc/sys/net/ipv4/tcp_max_syn_backlog来增加tcp syn队列的长度。
四、真实丢包判断
可以通过ethtool、ifconfig、netstat命令查看丢包统计,也可以直接查看/proc/net/dev、/sys/class/net/dev_name查看,如ifconfig eth0
RX errors: 表示总的收包的错误数量,这包括 too-long-frames 错误,Ring Buffer 溢出错误,crc 校验错误,帧同步错误,fifo overruns 以及 missed pkg 等等。
RX dropped: 表示数据包已经进入了 Ring Buffer,但是由于内存不够等系统原因,导致在拷贝到内存的过程中被丢弃。
RX overruns: 表示了 fifo 的 overruns,这是由于 Ring Buffer(aka Driver Queue) 传输的 IO 大于 kernel 能够处理的 IO 导致的,而 Ring Buffer 则是指在发起 IRQ 请求之前的那块 buffer。很明显,overruns 的增大意味着数据包没到 Ring Buffer 就被网卡物理层给丢弃了,而 CPU 无法即使的处理中断是造成 Ring Buffer 满的原因之一,上面那台有问题的机器就是因为 interruprs 分布的不均匀(都压在 core0),没有做 affinity 而造成的丢包。
RX frame: 表示 misaligned 的 frames。
对于 TX 的来说,出现上述 counter 增大的原因主要包括 aborted transmission, errors due to carrirer, fifo error, heartbeat erros 以及 windown error,而 collisions 则表示由于 CSMA/CD 造成的传输中断。
五、逻辑意义上的丢包
相信大家多少都了解tcp协议栈,tcp协议栈中有超时重传算法,此处的逻辑丢包指的是接收方没有在发出ack后收到正确序号范围的packet
六、逻辑意义上的丢包原因及判断方法
原因很可能是发生了网络问题,具体包括如网络拥塞、网线松动、网络不稳定及其他线路故障,也有可能是网络流量突增,但是我们做监控的不能去实时的拿着线路检测仪去检查线路,当前拟定使用如下指标,来源/proc/net/netstat:
TcpExt.TCPLoss,tcp协议栈丢失数据包而进行恢复的次数,此时falcon-agent所在主机为接收方
TcpExt.TCPTimeouts tcp数据在指定时间内没有受到应答ack而超时的次数,此时falcon-agent所在主机为发送方
TcpExt.TCPLossFailures,tcp协议栈丢失数据包进行恢复失败的次数
TcpExt.TcpFastRetrans,tcp快速重传的次数