块设备buffer cache机制

 

EXT3文件IO踏上新的征程之前,需要介绍一位EXT3文件IO的同伴,他们即将踏上相同的旅程。只不过这位同伴没有经历过EXT3文件系统的精彩,却领略了另外一番略有差别的风情。这位同伴是在块设备写操作时创建诞生的,我们可以称它为块设备IO

在很多应用中都会直接进行块设备操作,我们常用的命令dd就可以进行块设备的读写。例如:dd if=/dev/sda of=./abc bs=512 count=1 命令可以实现将/dev/sda设备的第一个扇区读入到当前目录的abc文件中。读到这里我们想一下:访问一个块设备文件和一个EXT3文件到底有何本质上的区别呢?说到区别还是可以列举一二的:

1)EXT3是一个通用的文件系统,数据在磁盘上的分布是采用元数据的形式进行描述的。所以,对于一个EXT3文件的读写操作会涉及到元数据和文件数据两种类型。由于这两种数据类型存在相关性,所以为了保证两者之间操作的原子性,EXT3通常会采用日志的方式保证操作的原子性。

2)块设备没有EXT3文件系统那么复杂,写入的数据直接在磁盘存储,不存在任何的元数据信息。

所以,比较块设备和EXT3文件系统,数据的读写方式存在差别。两者之间一个很大的共同点是都存在磁盘访问的性能问题,都可以采用内存对磁盘进行性能优化。EXT3采用page cacheIO性能进行优化,块设备同样可以采用page cache对其进行性能优化。前面我们已经了解到,每个EXT3文件都有一棵radix tree用于维护这个文件内容的page cache,而裸设备可以等价成一个EXT3文件,同样可以采用一棵radix tree对块设备上的数据进行cache维护。所以,在这两者之间是有很大共同点的。

正因为如此,Linux在实现块设备IO操作的时候和EXT3是类似的,对于块设备访问的这个子系统可以称之为bdev文件系统。VFS实现了所有类型文件访问的功能,应用程序所调用的API是完全相同的。对于块设备的访问,穿过VFS层会调用bdev文件系统提供的相关函数。

在初始化块设备的时候,会调用init_special_inode函数初始化这个块设备的inode

void init_special_inode(struct inode *inode, umode_t mode, dev_t rdev)
{
inode->i_mode = mode;
if (S_ISCHR(mode)) {
/* 初始化字符设备操作方法 */
inode->i_fop = &def_chr_fops;
inode->i_rdev = rdev;
} else if (S_ISBLK(mode)) {
/* 初始化块设备操作方法 */
inode->i_fop = &def_blk_fops;
inode->i_rdev = rdev;
} else if (S_ISFIFO(mode))
inode->i_fop = &def_fifo_fops;
else if (S_ISSOCK(mode))
inode->i_fop = &bad_sock_fops;
else
printk(KERN_DEBUG "init_special_inode: bogus i_mode (%o) for"
" inode %s:%lu\n", mode, inode->i_sb->s_id,
inode->i_ino);
}

在用户程序调用open函数打开指定块设备的时候,会初始化一个file对象,并且采用上述inodefile对象进行初始化。因此,通过file对象的文件操作方法就可以调用通用的块设备操作函数。Linux中定义的通用块设备操作函数说明如下:

const struct file_operations def_blk_fops = {
.open       = blkdev_open,
.release    = blkdev_close,
.llseek     = block_llseek,
.read       = do_sync_read,
.write      = do_sync_write,
.aio_read   = generic_file_aio_read,
.aio_write  = blkdev_aio_write,
.mmap       = generic_file_mmap,
.fsync      = blkdev_fsync,
.unlocked_ioctl = block_ioctl,
#ifdef CONFIG_COMPAT
.compat_ioctl   = compat_blkdev_ioctl,
#endif
.splice_read    = generic_file_splice_read,
.splice_write   = generic_file_splice_write,
};

因此,对于一个块设备的写操作,通过write函数陷入内核执行do_sync_write。在do_sync_write函数中会调用blkdev_aio_write函数实现块设备的异步写入过程。blkdev_aio_write函数的核心是__generic_file_aio_write。到此为止,我们发现块设备的所有调用函数和EXT3文件系统基本一样。前面已经分析过,__generic_file_aio_write分成两种情况:Direct_IOBuffer_IO。对于buffer_IO分成关键的几个步骤:

1)write_begin

2)copy buffer

3)write_end

write_beginwrite_end函数是每类文件系统具体相关的方法,对于bdev文件系统,其定义为:

static const struct address_space_operations def_blk_aops = {
.readpage   = blkdev_readpage,
.writepage  = blkdev_writepage,
.write_begin    = blkdev_write_begin,
.write_end  = blkdev_write_end,
.writepages = generic_writepages,
.releasepage    = blkdev_releasepage,
.direct_IO  = blkdev_direct_IO,
};

对于EXT3文件而言,write_begin会进行日志操作,块设备文件系统没有这种操作,只会进行一些page页初始化方面的工作。对于write_end函数,EXT3文件系统会清除日志,并且需要通知writeback守护线程去回写数据。对于块设备文件系统而言,write_end函数的主要工作就是将page页标识成脏,然后通知回写线程去处理这个块设备中的脏页。实现设置脏页的函数说明如下:

static int __block_commit_write(struct inode *inode, struct page *page,
unsigned from, unsigned to)
{
unsigned block_start, block_end;
int partial = 0;
unsigned blocksize;
struct buffer_head *bh, *head;
blocksize = 1 << inode->i_blkbits;
for(bh = head = page_buffers(page), block_start = 0;
bh != head || !block_start;
block_start=block_end, bh = bh->b_this_page) {
block_end = block_start + blocksize;
if (block_end <= from || block_start >= to) {
if (!buffer_uptodate(bh))
partial = 1;
} else {
set_buffer_uptodate(bh);
/*将page页和inode设置成脏,等待回写调度处理*/
mark_buffer_dirty(bh);
}
clear_buffer_new(bh);
}
/*
* If this is a partial write which happened to make all buffers
* uptodate then we can optimize away a bogus readpage() for
* the next read(). Here we 'discover' whether the page went
* uptodate as a result of this (potentially partial) write.
*/
if (!partial)
SetPageUptodate(page);
return 0;
}

从整个分析来看,裸块设备的写操作中Cache的机制、原理和EXT3并没有什么本质上的区别。大家都采用了radix tree管理的page cache。如果不采用Direct_IO的方式,那么都会首先将数据写入page cache,然后再通过writeback机制将数据回写到磁盘。整个机制是完全相同的。所不同的是,EXT3和块设备的缓存块大小是不相同的。对于EXT3而言,缓存块大小就是page size,对于块设备而言,缓存块大小会采用一定的策略得到。具体关于buffer cache的缓存块大小参考《LinuxBuffer cache性能问题一探究》。

虽然块设备和EXT3文件看上去差别很大,但是,由于系统所要解决的问题基本类似,因此,在IO处理的机制上是类似的。好!言归正传,到目前为止,EXT3文件IO以及块设备IO都已经准备完毕,writeback回写机制已经已经将这些IO统统回写到底层设备中。这些IO都将离开短暂的page cache,一同踏上块设备层,即将面临块设备层即公平又难以公平的调度处理过程。