一、引子
nio是java的IO框架里边十分重要的一部分内容,其最核心的就是提供了非阻塞IO的处理方式,最典型的应用场景就是处理网络连接。很多同学提起nio都能说起一二,但是细究其背后的原理、思想往往就开始背书,说来说去都是那么几句,其中不少人并不见的真的很理解。本人之前就属于此类,看了很多书和博客,但是大多数都只是讲了三件套和怎么使用,很少会很细致的讲背后的思想,那本次我们就来扒一扒吧。
很多博客描述nio都是这么说的:基于Reactor模式实现的多路非阻塞高性能的网络IO。那么我们就从这个定义来分析,其中两个关键点:多路非阻塞和Reactor模式。(本来想把高性能也算进去,但是后来想想这个应该算前两者的结果)下边我们来分别搞懂这两块。
二、网络IO模型
多路非阻塞其实准确的名字叫做IO多路复用模型,其是linux五种网络模型之一,也是当前网络编程最常使用的模型之一。至于详细的介绍请参考博客:高性能IO模型浅析(这个里边只给出了4中,没有信号驱动IO,但讲的很赞,特别是图),这里仅作简要介绍和对比:
- 阻塞IO:java中老的bio便是这种模式,在接到事件(数据到达、数据拷贝完成等)前程序需阻塞等待。优点是编码简单,缺点是效率低,处理程序阻塞会导致cpu利用率很低。
- 非阻塞IO:在未接到事件时处理程序一直主动轮询,这样处理程序无需阻塞,可以在轮询间歇去干别的,但是轮询会造成重复请求,同样浪费资源。以前java中实现的的伪异步模式就是采用这种思想。
- IO复用模型:增加了对socket的事件监听器(selector),从而把处理程序和对应的socket事件解耦,所用的socket连接都注册在监听器,在等待阶段只有监听器会阻塞,处理线程从监听器获取事件对socket连接处理即可,而且一个处理线程可以对应多个连接(前两种一般都是一个socket连接起一个线程,这就是为什么叫复用),有点是节省资源,由于处理程序能够被多个连接复用,因此少数的线程就能处理大量连接。缺点同样因为复用,如果是大量费时处理的连接(如大量连接上传大文件),很容易造成线程占满而导致新连接失败。
- 信号驱动IO模型:在数据准别阶段无需阻塞,只需向系统注册一个信号,在数据准备好后,系统会响应该信号。该模型依赖于系统实现,而且信号通信使用比较麻烦,因此java中未有对应实现。
- 异步IO:与信号驱动IO很类似,而且在数据拷贝阶段(指数据从系统缓冲区拷贝至程序自己的缓冲区,其他模型改阶段程序都需要阻塞等待)同样可以异步处理。有点不必多说,效率很高,缺点是依赖系统底层实现。目前很多语言都提供该模型的实现,jdk1.7之后同样在concurrent包中提供了。
对比以上五种模型可以知道,IO复用模型从效率和实现成本综合而言目前是比较好的选择,这就是java基于该模型实现nio的根本原因。上边提到了IO复用模型的实现思想,其实这种思想在其他语言中早已实现(如C++中据说流弊哄哄超10w行代码的ACE,自适配通信环境,就采用了该模型),并且提出了一个叫Reactor的设计模式。
三、Reactor模式
Reactor模式,翻译过来叫做反引器模式,其目的是在事件驱动的应用中,将一个请求的能够分离并且调度给应用程序。我相信大多数人都没看明白前一句的意思(书还是要背的),说白了就是对于一个请求的多个事件(如连接、读写等),经过这种模式的处理,能够区分出来,并且分别交给对应的处理模块处理。废话不多说,来看下一个简图:
可以看到Reactor模式中组件有acceptor、dispatcher和handler(这里只是拿一种实现做个例子,真实的实现各有不同),其中 acceptor中注册了各类事件,当连接有新的事件过来时,其会将事件交给dispatcher进行分发;dispatcher绑定了事件和对应处理程序handler的映射关系,当接到新事件时其会把事件分发到对应handler;而handler 负责处理对应事件,这块就是我们的业务层了。
从该模式我们可以发现,对于 acceptor、dispatcher我们往往只需要一个线程作为入口即可,因为其并不会有耗时处理,效率很高,而handler则根据需要起几个线程即可(多数时候使用一个线程池实现),这正是IO复用模型 期 望的效果。
下边我们会介绍NIO是如何实现该模式的,在此之前先介绍一下框架,其实除了NIO之外,基于JVM实现的还有其他Reactor框架,正好最近OSC牵头翻译了对应文档,有兴趣的可以看下: Reactor 指南 。
四、NIO
NIO的细节就不多讲了,这里只介绍下三件套:
- channel:管道,可以看做对流的封装,有点像pipe,不过其是全双工的。其好处是屏蔽了底层细节,不用关心流对应的是文件还是网络,也不用关心连接怎么处理的,而且全双工,不用考虑输入流或输出流,你只用使用buffer对其进行读写就行了。
- buffer:channel的好基友,底层就是个字节数组,不同的是对其进行了封装,不仅提供了对基本类型的支持,而且内部维持了读写位置(postion、limit、capacity、mark等),还提供了便捷的方法(clear、flip)。对channel的读写必须通过buffer。
- selector:这个不多说了,如果前边认真看基本上就明白干啥的,就是Reactor模式中Acceptor的实现。
再来看个简图吧:
基本上和Reactor能对应上,少了个dispatcher,这是由于jdk本身提供的nio比较基本,dispatcher一般都由我们自己实现,而在我理解中,mina、netty这些框架很重要的一方面也是提供了该部分的实现。