iops

原创

Art_Hero 2014-12-29 15:25:30 ©著作权

文章标签 iops 文章分类 服务器

©著作权归作者所有：来自51CTO博客作者Art_Hero的原创作品，请联系作者获取转载授权，否则将追究法律责任

IOPS

1、传统磁盘本质上一种机械装置，如FC, SAS, SATA磁盘，转速通常为5400/7200/10K/15K。影响磁盘的关键因素是磁盘服务时间，即磁盘完成一个I/O请求所花费的时间，它由寻道时间、旋转延迟和数据传输时间三部分构成。

2、寻道时间：(Tseek)是指将读写磁头移动至正确的磁道上所需要的时间。寻道时间越短，I/O操作越快，目前磁盘的平均寻道时间一般在3－15ms。

3、旋转延迟：(Trotation)是指盘片旋转将请求数据所在扇区移至读写磁头下方所需要的时间。旋转延迟取决于磁盘转速，通常使用磁盘旋转一周所需时间的1/2表示。比如，7200rpm的磁盘平均旋转延迟大约为60*1000/7200/2 = 4.17ms，而转速为15000 rpm的磁盘其平均旋转延迟约为2ms。

4、数据传输时间：(Ttransfer)是指完成传输所请求的数据所需要的时间，它取决于数据传输率，其值等于数据大小除以数据传输率。目前IDE/ATA能达到133MB/s，SATA II可达到300MB/s的接口数据传输率，数据传输时间通常远小于前两部分时间。

5、因此，理论上可以计算出磁盘的最大IOPS，即IOPS = 1000 ms/ (Tseek + Troatation)，忽略数据传输时间。假设磁盘平均物理寻道时间为3ms, 磁盘转速为7200,10K,15K，则磁盘IOPS理论最大值分别为：

IOPS = 1000 / (3 + 60000/7200/2) = 140

IOPS = 1000 / (3 + 60000/10000/2) = 167

IOPS = 1000 / (3 + 60000/15000/2) = 200

6、实际测量中，IOPS数值会受到很多因素的影响，包括I/O负载特征(读写比例，顺序和随机，工作线程数，队列深度，数据记录大小)、系统配置、操作系统、磁盘驱动等等。因此对比测量磁盘IOPS时，必须在同样的测试基准下进行，即便如何也会产生一定的随机不确定性。通常情况下，IOPS可细分为如下几个指标：

Toatal IOPS，混合读写和顺序随机I/O负载情况下的磁盘IOPS，这个与实际I/O情况最为相符。

Random Read IOPS，100%随机读负载情况下的IOPS。

Random Write IOPS，100%随机写负载情况下的IOPS。

Sequential Read IOPS，100%顺序负载读情况下的IOPS。

Sequential Write IOPS，100%顺序写负载情况下的IOPS。

例：

1、通常当数据库管理员提出需要更多存储空间的时候，他们还会指定必须要达到多少IOPS。现在有这样一个需求，20TB存储空间同时满足4500 IOPS+RAID 5，我应该如何计算？RAID 5或者RAID 1/0的时候分别需要多少块硬盘？

证明：

1、首先需要知道I/O中读操作(Read)与写操作(Write)所占的百分比。然后通过下列公式，将主机的IOPS需求转换成硬盘实际IOPS负载：

RAID类型	公式
RAID 5 and 3	Drive IOPS = Read IOPS + 4*Write IOPS
RAID 6	Drive IOPS = Read IOPS + 6*Write IOPS
RAID 1 and 1/0	Drive IOPS = Read IOPS + 2*Write IOPS

注：raid5和raid6分别带1份和2份校验（parity）作为数据保护的手段，从而可分别应对最多坏1个盘和2个盘的情况。但是随之而来也有了写(write)性能上一定的降低。这是因为对于raid5上的每个写IO，需要分别读取数据位和校验位，计算后然后再写入数据位和校验位总共4个IO来完成。同理，对于raid6上的每次写IO，需要3+3总共6次IO来完成。这个也就是上述公式里的4*Write IOPS （对应raid5）和6*Write IOPS （对应raid6）的意思。

当然，这个只是指传统意义上的理论算法。就当今的存储系统而言，由于大量写缓存的存在以及系统的其他优化处理，raid5和raid6的写性能并没有想象中的那么差。

假定4500 IOPS中读/写比是2:1，则不同RAID类型Drive IOPS要求分别如下：

RAID 1/0 -> (2/3)*4500 + 2*(1/3)*4500 = 6000 IOPS

RAID 5 -> (2/3)*4500 + 4*(1/3)*4500 = 9000 IOPS

RAID 6 -> (2/3)*4500 + 6*(1/3)*4500 = 12000 IOPS

再参照下表中不同类型硬盘单块IOPS参数，得出需要多少块硬盘：

硬盘类型	IOPS
SAS 15k rpm	180
SAS 10k rpm	140
SATA 7.2k rpm	80
SATA 5.4k rpm	40

假定选用SAS 15K RPM硬盘，则：

RAID 1/0: 6000/180 = 34 块

RAID 5: 9000/180 = 50 块

RAID 6: 12000/180 = 67 块

IOPS

1、决定IOPS的主要取决于阵列的算法，cache命中率，以及磁盘个数。

2、cache的命中率取决于数据的分布，cache size的大小，数据访问的规则，以及cache的算法，如果完整的讨论下来，这里将变得很复杂，可以有一天好讨论了。我这里只强调一个cache的命中率，如果一个阵列，读cache的命中率越高越好，一般表示它可以支持更多的IOPS，为什么这么说呢?这个就与我们下面要讨论的硬盘IOPS有关系了。

硬盘的限制，每个物理硬盘能处理的IOPS是有限制的，如

10 K 15 K

——— ———

100 150

3、同样，如果一个阵列有120块15K rpm的光纤硬盘，那么，它能撑的最大IOPS为120*150=18000，这个为硬件限制的理论值，如果超过这个值，硬盘的响应可能会变的非常缓慢而不能正常提供业务。

4、在raid5与raid10上，读iops没有差别，但是，相同的业务写iops，最终落在磁盘上的iops是有差别的，而我们评估的却正是磁盘的IOPS，如果达到了磁盘的限制，性能肯定是上不去了。

那我们假定一个case，业务的iops是10000，读cache命中率是30%，读iops为60%，写iops为40%，磁盘个数为120，那么分别计算在raid5与raid10的情况下，每个磁盘的iops为多少。

raid5:

单块盘的iops = (10000*(1-0.3)*0.6 + 4 * (10000*0.4))/120

= (4200 + 16000)/120

= 168

这里的10000*(1-0.3)*0.6表示是读的iops，比例是0.6，除掉cache命中，实际只有4200个iops,

而4 * (10000*0.4) 表示写的iops，因为每一个写，在raid5中，实际发生了4个io，所以写的iops为16000个

为了考虑raid5在写操作的时候，那2个读操作也可能发生命中，所以更精确的计算为：

单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4)*(1-0.3) + 2 * (10000*0.4))/120

= (4200 + 5600 + 8000)/120

= 148

计算出来单个盘的iops为148个，基本达到磁盘极限

raid10

单块盘的iops = (10000*(1-0.3)*0.6 + 2 * (10000*0.4))/120

= (4200 + 8000)/120

= 102

可以看到，因为raid10对于一个写操作，只发生2次io，所以，同样的压力，同样的磁盘，每个盘的iops只有102个，还远远低于磁盘的极限iops。

在一个实际的case中，一个恢复压力很大的standby(这里主要是写，而且是小io的写)，采用了raid5的方案，发现性能很差，通过分析，每个磁盘的iops在高峰时期，快达到200了，导致响应速度巨慢无比。后来改造成raid10，就避免了这个性能问题，每个磁盘的iops降到100左右。

raid：

RAID0
RAID0将数据条带化(striping)将连续的数据分散在多个磁盘上进行存取，系统发出的IO命令（不管读IO和写IO都一样）就可以在磁盘上被并行的执行，每个磁盘单独执行自己的那一部分请求，这样的并行的IO操作能大大的增强整个存储系统的性能。假设一个RAID0阵列有n(n>=2)个磁盘组成，每个磁盘的随机读写的IO能力都达到140的话，那么整个磁盘阵列的IO能力将是140*n。同时如果在阵列总线的传输能力允许的话RAID0的吞吐率也将是单个磁盘的n倍。
RAID1
RAID1在容量上相当于是将两个磁盘合并成一个磁盘来使用了，互为镜像的两个磁盘里面保存的数据是完全一样的，因此在并行读取的时候速度将是n个磁盘速度的总和，但是写入就不一样了，每次写入都必须同时写入到两个磁盘中，因此写入速度只有n/2。
RAID5
我们那一个有n(n>=3)个磁盘的RAID5阵列来看，首先看看RAID5阵列的读IO，RAID5是支持并行IO的，而磁盘上的数据呈条带状的分布在所有的磁盘上，因此读IO的速度相当于所有磁盘速度的总和。不过这是在没有磁盘损坏的情况下，当有一个磁盘故障的时候读取速度也是会下降的，因为中间需要花时间来计算丢失磁盘上面的数据。

读取数据的情况相对就要复杂的多了，先来看下RAID5奇偶校验数据写入的过程，我们把写入的数据称为D1，当磁盘拿到一个写IO的命令的时候，它首先会读取一次要入的地址的数据块中修改之前的数据D0，然后再读取到当前条带中的校验信息P0，接下来就根据D0，P0，D1这三组数据计算出数据写入之后的条带的奇偶校验信息P1，最后发出两个写IO的命令，一个写入D1，另一个写入奇偶校验信息P1。可以看出阵列在实际操作的时候需要读、读、写、写一共4个IO才能完成一次写IO操作，也就是实际上的写入速度只有所有磁盘速度总和的1/4。从这点可以看出RAID5是非常不适合用在要大批量写入数据的系统上的。
RAID6
RAID6和RAID5很类似，差别就在于RAID6多了一个用于校验的磁盘。就写IO速度上来说这两个是完全一样的，都是所有磁盘IO速度的总和。

在写IO上也很是类似，不同的是RAID将一个命令分成了三次读、三次写一共6次IO命令才能完成，也就是RAID6实际写入磁盘的速度是全部磁盘速度之和的1/6。可以看出从写IO看RAID6比RAID5差别是很大的。
RAID10
RAID0读写速度都很好，却没有冗余保护；RAID5和RAID6都有同样的毛病就是写入的时候慢，读取的时候快。那么RAID1呢？嗯，这里要说的就是RAID1，其实不管是RAID10还是RAID01，其实都是组合大于2块磁盘时候的RAID1，当先镜像后条带时候就称为RAID10，先条带后镜像的时候称为RAID01。从性能上看RAID01和RAID10都是一样的，都是RAID1嘛，但是RAID10在重建故障磁盘的时候性能比RAID01要快。