socket-详细分析No buffer space available（转）

转载

byte01 2022-08-19 20:44:43

新年上班第一天，突然遇到一个socket连接No buffer space available的问题，导致接口大面积调用（webservice,httpclient）失败的问题，重启服务器后又恢复了正常。

问题详情

具体异常栈信息如下：

Caused by: java.net.SocketException: No buffer space available (maximum connections reached?): connect

at org.apache.axis.AxisFault.makeFault(AxisFault.java:101)

at org.apache.axis.transport.http.HTTPSender.invoke(HTTPSender.java:154)

at org.apache.axis.strategies.InvocationStrategy.visit(InvocationStrategy.java:32)

at org.apache.axis.SimpleChain.doVisiting(SimpleChain.java:118)

at org.apache.axis.SimpleChain.invoke(SimpleChain.java:83)

at org.apache.axis.client.AxisClient.invoke(AxisClient.java:165)

at org.apache.axis.client.Call.invokeEngine(Call.java:2784)

at org.apache.axis.client.Call.invoke(Call.java:2767)

at org.apache.axis.client.Call.invoke(Call.java:2443)

at org.apache.axis.client.Call.invoke(Call.java:2366)

at org.apache.axis.client.Call.invoke(Call.java:1812)

 

Caused by: java.net.SocketException: No buffer space available (maximum connections reached?): connect

at java.net.PlainSocketImpl.socketConnect(Native Method)

at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:333)

at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:195)

at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:182)

at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)

at java.net.Socket.connect(Socket.java:519)

at sun.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)

at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)

at java.lang.reflect.Method.invoke(Method.java:597)

at org.apache.axis.components.net.DefaultSocketFactory.create(DefaultSocketFactory.java:153)

at org.apache.axis.components.net.DefaultSocketFactory.create(DefaultSocketFactory.java:120)

at org.apache.axis.transport.http.HTTPSender.getSocket(HTTPSender.java:191)

at org.apache.axis.transport.http.HTTPSender.writeToSocket(HTTPSender.java:404)

at org.apache.axis.transport.http.HTTPSender.invoke(HTTPSender.java:138)

查阅了网上的资料，基本可以把问题锁定在：系统并发过大，连接数过多，部分socket连接无法释放关闭，而持续请求又导致无法释放的socket连接不断积压，最终导致No buffer space available。

最快解决办法

最快的解决办法：重启服务器，注意，重启tomcat不起作用。下面将分析最终的解决办法。

问题分析

虽然重启服务器能最快的将socket连接释放，但是问题很容易复现，很明显这不是问题的根本解决方式。还有几个问题需要进行进一步分析：

l 打开cmd输入netstat -an，发现存在大量处于TIME_WAIT状态的TCP连接，也就是之前提到的未释放的socket连接，并且server端口在不断变化，这又是什么现象呢？如下如图

socket-详细分析No buffer space available（转）_apache

l 系统是否有自动关闭连接的措施，是代码问题还是性能问题？

下面我们来分析解决这几个问题。

TIME_WAIT状态的由来

我们知道，TCP关闭连接需要经过四次握手，为什么是四次握手，而不是像建立连接那样三次握手，看看下面三次握手和四次握手的流程图。

socket-详细分析No buffer space available（转）_apache_02

　　　　　　　　　　　　　　三次握手建立连接示意图

socket-详细分析No buffer space available（转）_java_03

　　　　　　　　　　　　　　四次握手关闭连接示意图

从上面的三次握手建立连接示意图中可以知道，只要client端和server端都接收到了对方发送的ACK应答之后，双方就可以建立连接，之后就可以进行数据交互了，这个过程需要三步。

而四次握手关闭连接示意图中，TCP协议中，关闭TCP连接的是Server端（当然，关闭都可以由任意一方发起），当Server端发起关闭连接请求时，向Client端发送一个FIN报文，Client端收到FIN报文时，很可能还有数据需要发送，所以并不会立即关闭SOCKET，所以先回复一个ACK报文，告诉Server端，“你发的FIN报文我收到了”。当Client端的所有报文都发送完毕之后，Client端向Server端发送一个FIN报文，此时Client端进入关闭状态，不在发送数据。

Server端收到FIN报文后，就知道可以关闭连接了，但是网络是不可靠的，Client端并不知道Server端要关闭，所以Server端发送ACK后进入TIME_WAIT状态，如果Client端没有收到ACK则Server段可以重新发送。Client端收到ACK后，就知道可以断开连接了。Server端等待了2MSL（Max Segment Lifetime，最大报文生存时间）后依然没有收到回复，则证明Client端已正常断开，此时，Server端也可以断开连接了。2MSL的TIME_WAIT等待时间就是由此而来。

我们知道了TIME_WAIT的由来，TIME_WAIT 状态最大保持时间是2 * MSL，在1-4分钟之间，所以当系统并发过大，Client-Server连接数过多，Server端会在1-4分钟之内积累大量处于TIME_WAIT状态的无法释放的socket连接，导致服务器效率急剧下降，甚至耗完服务器的所有资源，最终导致No buffer space available (maximum connections reached?): connect

问题的发生。

端口变化由来

对于大型的应用，访问量较高，一台Server往往不能满足服务需求，这时就需要多台Server共同对外提供服务。如何充分、最大的利用多台Server的资源处理请求，这时就需要请求调度，将请求合理均匀的分配到各台Server。

LVS (Linux Virtual Server)集群(Cluster)技术就是实现这一需求的方式之一。采用IP负载均衡技术和基于内容请求分发技术。调度器具有很好的吞吐率，将请求均衡地转移到不同的服务器上执行，且调度器自动屏蔽掉服务器的故障，从而将一组服务器构成一个高性能的、高可用的虚拟服务器。

LVS集群采用三层结构，其主要组成部分为：

l 负载均衡调度器（load balancer），它是整个集群对外面的前端机，负责将客户的请求发送到一组服务器上执行，而客户认为服务是来自一个IP地址（我们可称之为虚拟IP地址）上的。

l 服务器池（server pool），是一组真正执行客户请求的服务器，执行的服务有WEB、MAIL、FTP和DNS等。

l 共享存储（shared storage），它为服务器池提供一个共享的存储区，这样很容易使得服务器池拥有相同的内容，提供相同的服务。

其结构如下图所示：

socket-详细分析No buffer space available（转）_java_04

结构示意图

从LVS结构示意图中可以看出，Load Balancer到后端Server的IP的数据包的源IP地址都是一样（Load Balancer的IP地址和Server 的IP地址属于同一网段），而客户端认为服务是来自一个IP地址（实际上就是Load Balancer的IP），频繁的TCP连接建立和关闭，使得Load Balancer到后端Server的TCP连接会受到限制，导致在server上留下很多处于TIME_WAIT状态的连接，而且这些状态对应的远程IP地址都是Load Balancer的。Load Balancer的端口最多也就60000多个(2^16=65536,1~1023是保留端口，还有一些其他端口缺省也不会用），每个Load Balancer上的端口一旦进入 Server的TIME_WAIT黑名单，就有240秒不能再用来建立和Server的连接，这样Load Balancer和Server的连接就很有限。所以我们看到了使用netstat -an命令查看网络连接状况时同一个 remote IP会有很多端口。