首先是DMA技术,实现正常的IO数据传输,如下图:这里我们的DMA代替了CPU进行两次拷贝的操作。注意这里我们内核缓冲区指的就是磁盘高速缓存(PageCache

kafka send 方法返回的future是null_系统架构

 

 我们可以使用零拷贝技术来优化IO。

零拷贝有两种解决方式,分别是 mmap+write 方式和 sendfile 方式,其核心原理都是 通过虚拟内存来解决的。

kafka send 方法返回的future是null_数据_02

Kafka零拷贝sendFile.

Kafka调用JAVA NIO库中FileChannel里的transferTO方法。这是我们的数据没有读入应用内存而是利用管道写入到对应的设备。如上图,第一次,是通过 DMA,从硬盘直接读到操作系统内核的读缓冲区里面。第二次,将描述符和长度传送到socket,直接写入到网卡的缓冲区里面。这个也是Kafka目前实现数据实时传输的方案。

kafka send 方法返回的future是null_系统架构_03

 

RocketMQ零拷贝——Mmap

传统的操作系统用户写文件需要文件需要IO将磁盘文件数据在操作系统内核地址空间的缓冲区和用户应用程序地址空间的缓冲区之间来回进行拷贝的性能开销。

Mmap全称Memory Mapped Files。是操作内核系统中将磁盘文件映射到内存,用户通过修改内存就能修改磁盘文件。通过mmap也有一个很明显的缺陷——不可靠,写到mmap中的数据并没有被真正地写到磁盘,操作系统会在程序主动调用flush的时候才把数据真正写到磁盘。

kafka send 方法返回的future是null_系统架构_04

 

最后需要注意:

大文件传输一般不存入内核缓存即磁盘高速缓存中。

由于文件太大,可能某些部分的文件数据被再次访问的概率比较低,这样就会带来 2 个问题:

  • PageCache 由于长时间被大文件占据,其他「热点」的小文件可能就无法充分使用到 PageCache,于是这样磁盘读写的性能就会下降了;
  • PageCache 中的大文件数据,由于没有享受到缓存带来的好处,但却耗费 DMA 多拷贝到 PageCache 一次;

大文件采用的是异步 I/O + 直接 I/O来代替0拷贝。具体如下:

kafka send 方法返回的future是null_数据_05