IOPS

1、传统磁盘本质上一种机械装置,如FC, SAS, SATA磁盘,转速通常为5400/7200/10K/15K。影响磁盘的关键因素是磁盘服务时间,即磁盘完成一个I/O请求所花费的时间,它由寻道时间旋转延迟数据传输时间三部分构成。

 2、寻道时间:(Tseek)是指将读写磁头移动至正确的磁道上所需要的时间。寻道时间越短,I/O操作越快,目前磁盘的平均寻道时间一般在3-15ms。

3、旋转延迟:(Trotation)是指盘片旋转将请求数据所在扇区移至读写磁头下方所需要的时间。旋转延迟取决于磁盘转速,通常使用磁盘旋转一周所需时间的1/2表示。比如,7200rpm的磁盘平均旋转延迟大约为60*1000/7200/2 = 4.17ms,而转速为15000 rpm的磁盘其平均旋转延迟约为2ms。

4、数据传输时间:(Ttransfer)是指完成传输所请求的数据所需要的时间,它取决于数据传输率,其值等于数据大小除以数据传输率。目前IDE/ATA能达到133MB/s,SATA II可达到300MB/s的接口数据传输率,数据传输时间通常远小于前两部分时间。

5、因此,理论上可以计算出磁盘的最大IOPS,即IOPS = 1000 ms/ (Tseek + Troatation),忽略数据传输时间。假设磁盘平均物理寻道时间为3ms, 磁盘转速为7200,10K,15K,则磁盘IOPS理论最大值分别为:

IOPS = 1000 / (3 + 60000/7200/2)  = 140

IOPS = 1000 / (3 + 60000/10000/2) = 167

IOPS = 1000 / (3 + 60000/15000/2) = 200

6、实际测量中,IOPS数值会受到很多因素的影响,包括I/O负载特征(读写比例,顺序和随机,工作线程数,队列深度,数据记录大小)、系统配置、操作系统、磁盘驱动等等。因此对比测量磁盘IOPS时,必须在同样的测试基准下进行,即便如何也会产生一定的随机不确定性。通常情况下,IOPS可细分为如下几个指标:

Toatal IOPS,混合读写和顺序随机I/O负载情况下的磁盘IOPS,这个与实际I/O情况最为相符。

Random Read IOPS,100%随机读负载情况下的IOPS。

Random Write IOPS,100%随机写负载情况下的IOPS。

Sequential Read IOPS,100%顺序负载读情况下的IOPS。

Sequential Write IOPS,100%顺序写负载情况下的IOPS。


例:

    1、通常当数据库管理员提出需要更多存储空间的时候,他们还会指定必须要达到多少IOPS。现在有这样一个需求,20TB存储空间同时满足4500 IOPS+RAID 5,我应该如何计算?RAID 5或者RAID 1/0的时候分别需要多少块硬盘?

证明:

1、首先需要知道I/O中读操作(Read)与写操作(Write)所占的百分比。然后通过下列公式,将主机的IOPS需求转换成硬盘实际IOPS负载:



RAID类型公式
RAID 5 and 3Drive IOPS = Read IOPS + 4*Write IOPS
RAID 6Drive IOPS = Read IOPS + 6*Write IOPS
RAID 1 and 1/0Drive IOPS = Read IOPS + 2*Write IOPS

注:raid5和raid6分别带1份和2份校验(parity)作为数据保护的手段,从而可分别应对最多坏1个盘和2个盘的情况。但是随之而来也有了写(write)性能上一定的降低。这是因为对于raid5上的每个写IO,需要分别读取数据位和校验位,计算后然后再写入数据位和校验位总共4个IO来完成。同理,对于raid6上的每次写IO,需要3+3总共6次IO来完成。这个也就是上述公式里的4*Write IOPS (对应raid5)和6*Write IOPS (对应raid6)的意思。

 当然,这个只是指传统意义上的理论算法。就当今的存储系统而言,由于大量写缓存的存在以及系统的其他优化处理,raid5和raid6的写性能并没有想象中的那么差。


假定4500 IOPS中读/写比是2:1,则不同RAID类型Drive IOPS要求分别如下:

    RAID 1/0 -> (2/3)*4500 + 2*(1/3)*4500 = 6000 IOPS

    RAID 5 -> (2/3)*4500 + 4*(1/3)*4500 = 9000 IOPS

    RAID 6 -> (2/3)*4500 + 6*(1/3)*4500 = 12000 IOPS

再参照下表中不同类型硬盘单块IOPS参数,得出需要多少块硬盘:

硬盘类型IOPS
SAS 15k rpm180
SAS 10k rpm140
SATA 7.2k rpm80
SATA 5.4k rpm40

假定选用SAS 15K RPM硬盘,则:

    RAID 1/0: 6000/180 = 34 块

    RAID 5: 9000/180 = 50 块

    RAID 6: 12000/180 = 67 块



IOPS

    1、决定IOPS的主要取决于阵列的算法,cache命中率,以及磁盘个数。

    2、cache的命中率取决于数据的分布,cache size的大小,数据访问的规则,以及cache的算法,如果完整的讨论下来,这里将变得很复杂,可以有一天好讨论了。我这里只强调一个cache的命中率,如果一个阵列,读cache的命中率越高越好,一般表示它可以支持更多的IOPS,为什么这么说呢?这个就与我们下面要讨论的硬盘IOPS有关系了。


    硬盘的限制,每个物理硬盘能处理的IOPS是有限制的,如

    10 K         15 K

    ——— ——— 

    100         150 

    3、同样,如果一个阵列有120块15K rpm的光纤硬盘,那么,它能撑的最大IOPS为120*150=18000,这个为硬件限制的理论值,如果超过这个值,硬盘的响应可能会变的非常缓慢而不能正常提供业务。

    4、在raid5与raid10上,读iops没有差别,但是,相同的业务写iops,最终落在磁盘上的iops是有差别的,而我们评估的却正是磁盘的IOPS,如果达到了磁盘的限制,性能肯定是上不去了。


    那我们假定一个case,业务的iops是10000,读cache命中率是30%,读iops为60%,写iops为40%,磁盘个数为120,那么分别计算在raid5与raid10的情况下,每个磁盘的iops为多少。

    raid5:

    单块盘的iops = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120

                            = (4200 + 16000)/120

                                = 168

    这里的10000*(1-0.3)*0.6表示是读的iops,比例是0.6,除掉cache命中,实际只有4200个iops,

    而4 * (10000*0.4) 表示写的iops,因为每一个写,在raid5中,实际发生了4个io,所以写的iops为16000个

    为了考虑raid5在写操作的时候,那2个读操作也可能发生命中,所以更精确的计算为:

    单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120

                            = (4200 + 5600 + 8000)/120

                            = 148

    计算出来单个盘的iops为148个,基本达到磁盘极限

    raid10

    单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120

                            = (4200 + 8000)/120

                            = 102

     可以看到,因为raid10对于一个写操作,只发生2次io,所以,同样的压力,同样的磁盘,每个盘的iops只有102个,还远远低于磁盘的极限iops。

    在一个实际的case中,一个恢复压力很大的standby(这里主要是写,而且是小io的写),采用了raid5的方案,发现性能很差,通过分析,每个磁盘的iops在高峰时期,快达到200了,导致响应速度巨慢无比。后来改造成raid10,就避免了这个性能问题,每个磁盘的iops降到100左右。


raid:

  • RAID0

  • RAID0将数据条带化(striping)将连续的数据分散在多个磁盘上进行存取,系统发出的IO命令(不管读IO和写IO都一样)就可以在磁盘上被并行的执行,每个磁盘单独执行自己的那一部分请求,这样的并行的IO操作能大大的增强整个存储系统的性能。假设一个RAID0阵列有n(n>=2)个磁盘组成,每个磁盘的随机读写的IO能力都达到140的话,那么整个磁盘阵列的IO能力将是140*n。同时如果在阵列总线的传输能力允许的话RAID0的吞吐率也将是单个磁盘的n倍。

  • RAID1

  • RAID1在容量上相当于是将两个磁盘合并成一个磁盘来使用了,互为镜像的两个磁盘里面保存的数据是完全一样的,因此在并行读取的时候速度将是n个磁盘速度的总和,但是写入就不一样了,每次写入都必须同时写入到两个磁盘中,因此写入速度只有n/2。

  • RAID5

  • 我们那一个有n(n>=3)个磁盘的RAID5阵列来看,首先看看RAID5阵列的读IO,RAID5是支持并行IO的,而磁盘上的数据呈条带状的分布在所有的磁盘上,因此读IO的速度相当于所有磁盘速度的总和。不过这是在没有磁盘损坏的情况下,当有一个磁盘故障的时候读取速度也是会下降的,因为中间需要花时间来计算丢失磁盘上面的数据。


    读取数据的情况相对就要复杂的多了,先来看下RAID5奇偶校验数据写入的过程,我们把写入的数据称为D1,当磁盘拿到一个写IO的命令的时候,它首先会读取一次要入的地址的数据块中修改之前的数据D0,然后再读取到当前条带中的校验信息P0,接下来就根据D0,P0,D1这三组数据计算出数据写入之后的条带的奇偶校验信息P1,最后发出两个写IO的命令,一个写入D1,另一个写入奇偶校验信息P1。可以看出阵列在实际操作的时候需要读、读、写、写一共4个IO才能完成一次写IO操作,也就是实际上的写入速度只有所有磁盘速度总和的1/4。从这点可以看出RAID5是非常不适合用在要大批量写入数据的系统上的。

  • RAID6

  • RAID6和RAID5很类似,差别就在于RAID6多了一个用于校验的磁盘。就写IO速度上来说这两个是完全一样的,都是所有磁盘IO速度的总和。


    在写IO上也很是类似,不同的是RAID将一个命令分成了三次读、三次写一共6次IO命令才能完成,也就是RAID6实际写入磁盘的速度是全部磁盘速度之和的1/6。可以看出从写IO看RAID6比RAID5差别是很大的。

  • RAID10

  • RAID0读写速度都很好,却没有冗余保护;RAID5和RAID6都有同样的毛病就是写入的时候慢,读取的时候快。那么RAID1呢?嗯,这里要说的就是RAID1,其实不管是RAID10还是RAID01,其实都是组合大于2块磁盘时候的RAID1,当先镜像后条带时候就称为RAID10,先条带后镜像的时候称为RAID01。从性能上看RAID01和RAID10都是一样的,都是RAID1嘛,但是RAID10在重建故障磁盘的时候性能比RAID01要快。