哈哈,baitian 的问题问得真是。。。

要是你在公开场合问Trustin Lee,估计他会笑而不语,

嘿嘿,因为这是人家最“珍贵”的东西吗。

 

当然,我不是他,但是这问题确实很难回答,最直接的办法就是看性能测试报告,

Netty的网站上提供了几个报告了,有Trustin Lee自己的测试,还有其他人的测试,

特别是Plurk的案例,这个案例就是关注Netty能支撑多少并发链接数的(而且是长链接),

楼主的需求其实跟Plurk有点类似,请看这里: http://www.jboss.org/netty/performance.html

 

如果想知道源代码实现细节的差异,这个更难,比如你想知道Netty比Mina性能好的原因是什么,

你不光要知道Mina的所有实现细节,也同样要知道所有Netty的实现细节,

因为性能好坏是一个框架的整体表现形为,不局限于某个类、某个方法。

 

不过,为了削除某些人又怀疑我来JavaEye扯大炮了,我最好还是花1小时来码一下字,

我不了解Mina的所有实现细节,所以我只说我认为Netty做得好的地方(这些地方或许就是拉开性能差距的地方)。

 

 

NIO框架其实内部的核心实现都差不多, 比如在Server端通常开有Acceptor和Poller线程,

Acceptor负责接收请求,得到一个Socket后把它包装一下,比如放到一个Task中,然后再把Task加到一个Queue,

Poller说白了就是在不停的执行一个循环,在这个循环中处理各种Task,Task除了Acceptor新注册的任务外,当然还有读和写。

 

NIO框架性能表现得好与坏,更多的是作者在一些细节方面的处理,

比如在读写字节时尽量减少来回copy,这方面一些成熟的框架都做得很好了,

比如Tomcat、Jetty、Netty在从Socket中读取字节时一般都自已实现了一套Buffer类来对字节数组进行操作,

而不是直接使用java.nio中的Buffer类,

如果想从Buffer中抽取一个片段(比如在http协议解析中,一个请求行有method,uri,http-version),

只要把offset和片段length记下来就行了。

 

 

另一个就是并发问题了,尽量减少不必要的同步,

 

比如像上面的Queue就是一个很关键的地方,这个地方一般会有三种线程在对它操作,

1. Acceptor把接收到的Socket包装成Task加到Queue(执行Queue.offer)

2. 应用线程要写数据,所以WriteTask也会加到Queue(执行Queue.offer)

3. Poller从Queue中取出Task来执行(执行Queue.poll)

 

所以这个Queue的实现就很重要了,

Netty的聪明之处在于,它没有使用java.util.concurrent中的Queue实现(比如ArrayBlockingQueue或ConcurrentLinkedQueue),

而是使用Doug Lea大神在jdk1.7中才加入的jsr166y.LinkedTransferQueue,

在Netty中变成了org.jboss.netty.util.internal.LinkedTransferQueue,这两个类有一点点差异,

我无法确认是Trustin Lee自己修改的,还是用了不同版本。

 

jsr166y.LinkedTransferQueue威力不容忽视,Tomcat、Jetty、Mina都没使用,

如果你刚好又用过BoneCP(一个JDBC数据库链接池框架),它也用了jsr166y.LinkedTransferQueue来对链接进行offer和poll操作,

BoneCP的测试报告出来了(http://jolbox.com/),比DBCP、C3P0快20多倍。

 

 

 

除此之外,Netty的Poller实际上就是org.jboss.netty.channel.socket.nio.NioWorker,

默认情况下,NioWorker的个数是CPU个数的两倍,

并且Netty在NioWorker中建立了两个LinkedTransferQueue,

一个是registerTaskQueue,另一个是writeTaskQueue,

 

registerTaskQueue给Acceptor、Poller线程用,writeTaskQueue给应用线程和Poller线程用,

这一划分一定程度上减少了并发粒度,起码不用三种线程都挤到一个Queue上。

 

另一方面,writeTaskQueue是同时给多个应用线程使用的,

应用线程想往Channel中写数据时,这个Channel内部又有一个LinkedTransferQueue( 叫writeBuffer) 用来存放数据,

然后再把这个LinkedTransferQueue间接包装成一个writeTask放入writeTaskQueue,

而不是像传统做法那样每次写数据都直接放到writeTaskQueue,

 

因为Poller线程在写 应用线程A 放入的数据时,如果所有应用线程共用一个LinkedTransferQueue,

应用线程B必需跟 Poller线程 和 应用线程A 竞争同一个LinkedTransferQueue,

 

与其这样,还不如为应用线程B单独开一个LinkedTransferQueue,当Poller线程还没处理到应用B的数据时,

应用线程B自己去折腾自己的LinkedTransferQueue好了,

等Poller线程处理完应用A的数据后,再处理应用B的数据。

 

这种做法也是为了减少并发粒度,因为应用A和应用B的数据没有关联,所以没必要全放入一个Queue,

这样应用线程A和应用线程B在写数据时不会存在竞争。

 

具体实现更漂亮,有兴趣请看NioWorker和NioSocketChannel的源代码。

 

 

最后,再说一下Netty的一个缺点,

大家看到这,发现我都没有提到读数据的情况,Netty读数据也是用Poller线程在读,

不管Acceptor放入多少个Socket,全是Poller线程在一个个地读,

把读到的数据放到Buffer后会触发MessageEvent事件(Netty是一个纯正的事件驱动框架,这是Tomcat、Jetty这类业余选手望尘莫及的),

此时会调用ChannelUpstreamHandler这类处理器的messageReceived方法,

messageReceived方法中的代码通常是业务相关的,但是执行messageReceived方法的线程却是Poller线程,

所以只要在messageReceived这种地方出现问题,比如有个Thead.sleep调用或者出现无限循环,

那么此时Netty跟死了没分别,Poller线程无法往下走了,所有Task都没法处理了。