为了解决同步阻塞I/O面临的一个链路需要一个线程处理的问题,后来有人对它的线程模型进行了优化——后端通过一个线程池来处理多个客户端的请求接入,形成客户端个数M:线程池最大线程数N的比例关系,由于M可以远远大于N。通过线程池可以灵活地调配线程资源,设置线程的最大值,防止由于海量并发接入导致线程耗尽。

下面,结合连接模型图和源码,对伪异步IO进行分析,看它是否能够解决同步阻塞IO面临的问题。

伪异步I/O模型图


采用线程池和任务队列可以实现一种叫做伪异步的I/O通信框架,它的模型图如下所示:

netty(二) 伪异步I/O编程_io



当有新的客户端接入时,将客户端的的Socket封装成一个Task(该任务实现java.lang.Runnable接口)投递到后端的线程池中进行处理,JDK的线程池维护一个消息队列和N个活跃线程,对消息队列中的任务进行处理。由于线程池可以设置消息队列的大小和最大线程数,因此,资源占用可控。


下面我们依然采用时间服务器程序,将其改造成伪异步I/O时间服务器,然后通过对代码进行分析,找出其弊端。



public class TimerServer {
public static void main(String[] args) throws IOException {
int port = 8080;
if (args != null && args.length > 0) {
try {
port = Integer.valueOf(args[0]);
} catch (NumberFormatException e) {
//
}
}
ServerSocket server = null;
try {
server = new ServerSocket(port);
System.out.println("The time server is start in port:" + port);
Socket socket = null;
TimeServerHandlerExecutePool singleExecutor = new TimeServerHandlerExecutePool(50,10000);
while (true) {
socket = server.accept();
singleExecutor.execute(new TimeServerHandler(socket));
}
} finally {
if (server != null) {
System.out.println("The time server close");
server.close();
server = null;
}
}
}
}

伪异步I/O的主函数代码发生了变化,我们首先创建一个时间器处理类的线程池,从而避免了每个请求接入都创建一个新的线程。

public class TimeServerHandlerExecutePool {
private ExecutorService executor;

public TimeServerHandlerExecutePool(int maxPoolSize, int queueSize) {
executor = new ThreadPoolExecutor(Runtime.getRuntime().availableProcessors(), maxPoolSize, 120L, TimeUnit.SECONDS,
new ArrayBlockingQueue<Runnable>(queueSize));
}

public void execute(Runnable task) {
executor.execute(task);
}
}




伪异步I/O通信框架采用了线程池实现,因此避免了为每个请求都创建一个独立线程造成的线程资源耗尽问题。但是由于它底层的通信依然采用同步阻塞模型,因此无法从根本上解决问题。下面我们对伪异步I/O进行深入分析,找到它的弊端,然后看看NIO是如何从根本上解决这个问题的。



伪异步I/O弊端分析


/**
* Reads some number of bytes from the input stream and stores them into
* the buffer array <code>b</code>. The number of bytes actually read is
* returned as an integer. This method blocks until input data is
* available, end of file is detected, or an exception is thrown.
*
* <p> If the length of <code>b</code> is zero, then no bytes are read and
* <code>0</code> is returned; otherwise, there is an attempt to read at
* least one byte. If no byte is available because the stream is at the
* end of the file, the value <code>-1</code> is returned; otherwise, at
* least one byte is read and stored into <code>b</code>.
*
* <p> The first byte read is stored into element <code>b[0]</code>, the
* next one into <code>b[1]</code>, and so on. The number of bytes read is,
* at most, equal to the length of <code>b</code>. Let <i>k</i> be the
* number of bytes actually read; these bytes will be stored in elements
* <code>b[0]</code> through <code>b[</code><i>k</i><code>-1]</code>,
* leaving elements <code>b[</code><i>k</i><code>]</code> through
* <code>b[b.length-1]</code> unaffected.
*
* <p> The <code>read(b)</code> method for class <code>InputStream</code>
* has the same effect as: <pre><code> read(b, 0, b.length) </code></pre>
*
* @param b the buffer into which the data is read.
* @return the total number of bytes read into the buffer, or
* <code>-1</code> if there is no more data because the end of
* the stream has been reached.
* @exception IOException If the first byte cannot be read for any reason
* other than the end of the file, if the input stream has been closed, or
* if some other I/O error occurs.
* @exception NullPointerException if <code>b</code> is <code>null</code>.
* @see java.io.InputStream#read(byte[], int, int)
*/
public int read(byte b[]) throws IOException {
return read(b, 0, b.length);
}


请注意加斜体字部分的API说明,当对Socket的输入流进行读取操作的时候,它会一直阻塞下去,知道发生如下三个事件。


  • 有数据可读
  • 可用数据已经读取完毕
  • 发生空指针或者I/O异常。

这意味着当对方发送请求或者应答消息比较缓慢,或者网络传输较慢时,读取输入流一方的通信线程将被长时间阻塞,如果对方要60s才能够将数据发送完成,读取一方的I/O线程也将会被同步阻塞60s,在此期间,其他接入消息只能在消息队列中排队。



下面我们接着对输出流进行分析,还是看JDKI/O类库输出流的API文档,然后结合文档说明进行故障分析。



在OutputStream的write方法写输出流的时候,它将会被阻塞,直到所有要发送的字节写入完毕,或者发生异常。学习过TCP/IP的人都知道,当消息的接收方处理缓慢的时候,将不能及时地从TCP缓冲区读取数据,这将会导致发送方的TCP window size不断减小,直到为0,双方处于Keep-Alive状态,消息发送方将不能向TCP缓冲区写入消息,这时如果采用的是同步阻塞I/O,write操作将会被无限期阻塞,直到TCP window size 大于0或者发生I/O异常。



通过对输入流和输出流的文档进行分析,我们了解到读和写操作都是同步阻塞的,阻塞的时间取决于对方I/O线程的处理速度和网络I/O的传输速度。本质上来讲,我们无法保证生产环境的网络状况和对端的应用程序足够快,如果我们的应用程序依赖对方的处理速度,它的可靠性就非常差。也许在实验室进行的性能测试让人满意,但一旦上线运行,面对恶劣的网络环境和良莠不齐的第三方系统,问题就会如火山一样爆发。



伪异步I/O实际上仅仅是对之前的I/O线程模型的一个简单优化,它无法从根本上解决同步I/O导致的通信线程阻塞问题。下面我们简单分析下通信对方返回应答时间过长会引起的级联故障。


(1)服务端处理缓慢,返回应答消息耗费60秒,平时只需要10ms。


(2)采用伪异步I/O线程正在读取故障服务节点的响应,由于读取输入流是阻塞的,它将会被同步阻塞60s。


(3)假如所有的可用线程都被故障服务器阻塞,那后续所有的I/O消息都将在队列中排队。


(4)由于线程池采用阻塞队列实现,当队列积满之后,后续入队列的操作将被阻塞。


(5)由于前端只有一个Accptor线程接收客户端接入,它被阻塞在线程池的同步阻塞队列之后,新的客户端请求消息将被拒绝,客户端会发生大量的连接超时。


(6)由于几乎所有的连接都超时,调用者会认为系统已经崩溃,无法接收新的请求消息。



如何破解这个难题?下篇博客的NIO将给出答案。