大家都知道,如果你想测试存储的性能,一般大家都会选择SPC这个第三方组织。

华为的Dorado v3也参加了SPC的测试(详见近期SPC-1新测试规范受捧,宏杉、富士通和华为相继发布新测试结果),验证了100万IOPS下,可以做到0.5ms以下的稳定时延。

但是,SPC只能测性能,但是,很多用户关注的是可靠性特性,如双活、RAID-TP(容忍同时坏三块盘)、硬盘重构时间等等,这些怎么测试呢?如何让用户相信你的产品能够做到你吹的牛?

这个时候,大部分存储厂商会选择ESG Lab来进行技术的验证。

ESG是一个著名的咨询机构,其有一个实验室,专门用来验证厂商的新特性。你想测啥都行,在哪里测都行,但必须是他们亲自动手进行独立测试,然后出具一个第三方的报告,这个报告在ESG官网可以公开下载。

因此,ESG LAB也是各个存储厂商齐聚的地方,几乎所有的存储大厂都在里面做过测试。

华为Dorado v3吹了那么多牛,除了性能外,还有RAID-TP,双活,TCO等等,特别是Dorado 5000 v3 NVMe版本,更是一个全新的形态,NVMe的热插拔如何?NVMe SSD的重构时间如何?这些新的东西,自己说没有用,需要一个第三方的测试机构来测试验证才行。

于是,我看到了ESG官网发布的最新的存储测试报告就是华为Dorado V3的,今天我就来简单解读一下,报告全文大家可以在文后原文链接下载。

ESG说存储目前的挑战TOP3是数据保护、硬件成本、快速的数据增长率。

但对于全闪存阵列,用户最关心的性能、可靠性、性价比、TCO这些东西。

这次测试的华为Dorado V3,号称就是这样一款解决用户痛点的产品。采用最新的NVMe SSD,支持scale-out到16控,解决高性能的问题;采用RAID-TP(三重校验,可以支持同时坏三块盘),ROW的无损快照,免网关的双活技术来解决高可用和可靠性问题;当然,支持重删压缩,还有传统的thin,解决TCO的问题。

但是,事实真的是这样的吗?需要测试验证一下。

这是测试的拓扑图,Dorado 5000 v3配置了25个NVMe SSD,每个容量2TB。服务器有刀片服务器E9000,跑VDI和email (Exchange)业务,还有机架服务器两台跑Oracle RAC。光纤交换机是华为的16G FC交换机。总之,硬件全是华为的。

首先,先压上OLTP和Email负载。从结果看到,IOPS超过10万IOPS,平均时延基本在300us。这是在重删压缩打开的情况。

然后压上VDI负载,模拟1000个VDI同时开机的启动风暴情况。从结果可以看到,启动风暴期间,IOPS峰值高达16万IOPS,平均时延也上升到500us。不到1分钟,启动风暴结束,系统又恢复正常。

然后每个VDI再加上负载,这样我们可以看到三种负载同时压上,IOPS大约12,5000,而平均时延是320us。说明混合负载下,Dorado V3的表现还是不错的。

另外,ESG还做了快照的创建和回滚操作,没有发现对系统性能的影响。

最后,从系统界面看到当前的重删压缩比,在三种混合负载下可以做到7:1。(不过,原文报告里面的图片标题应该弄错了,还是用图7的快照回滚的标题)

下面重点来了。我们看看可用性的测试。

先看看阵列双活的测试。测试在同一个园区里,跑ORACLE RAC,下面是正常时候两个阵列控制器的性能情况。

然后把一个阵列拔电,我们看到剩下的阵列大约hold住3秒钟,然后接管了所有的负载,时延保持250us。这个3秒钟,应该是阵列脑裂后仲裁需要的时间,ORACLE数据库业务不会中断,但是会Hold住一会。

然后在数据库继续运行的时候,ESG测试了RAID-TP的三盘故障的情况。连续拔了三块SSD盘,间隔只有1-2分钟,肯定是来不及重构完成的,因此,三块盘同时丢失了,但系统继续保持运行。只是性能有所下降,时延有所上升,但是也控制在1ms以下。

最后,ESG测试RAID-TP的重构时间。测试报告说,在一个9块SSD盘的一个卷里,一共有7.4TB数据。拔掉一个SSD盘后,只需要9分钟就重构完成。

我们知道,Dorado V3采用的是RAID 2.0+技术,因此,重构的速度和盘大小没有关系,只是和数据量有关。我们来计算以下,7.4TB容量,9块SSD,平均每块的数据量大约是822MB,也就是9分钟可以重构822MB的数据,我换算了一下,1TB数据的重构时间大约是11分钟。

其实SSD盘里面除了数据,还有一些元数据,因此,重构速度还应该更快一些。大家知道,RAID 2.0+的重构速度和盘的数量关系很大,不知道为什么华为只拿9块盘给ESG测,插满25块盘测数据重构时间应该会更快些。不过,11分钟/1TB的重构时间,还是比高端存储30分钟/1TB要快,为什么呢?除了NVMe接口的优势外,还有高端存储宣传的值是指SATA盘的重构时间,而这里是SSD。

最后就是关于TCO的估算了。

ESG假设下面这个这个典型的混合负载的场景(就是上面测试的场景)

• An Oracle RAC OLTP environment able to support 100,000 IOPS and sub-millisecond response times.

• A 1,000-seat VDI deployment for heavy users (20 IOPS per user).

• A Microsoft Exchange environment to support 5,000 heavy users at one IOP per user.

不考虑5年内数据和性能的增长需求,静态看5年的TCO对比。对比华为自己的混合阵列,还有ESG原来测试过的某主流厂商的第一代AFA(我觉得应该是不带重删压缩的),我们看到Dorado 5000 v3有非常明显的优势。

好,ESG的测试报告解读完了。从测试的情况看,华为Dorado V3吹的牛基本实现了。不过,有一个没有测,那个吹的牛没有测,就是16控。不过,16控在SPC那个性能测试里面测试过了,只是ESG Lab没有测而已。因此,这两个测试报告一块看,我们发现华为Dorado V3应该是实现了其规格宣传的性能、效率和可用性相关的特性。

国内的存储竞争情况比较差,很多特性做不到,很多公司为了中标都答满足,等中标后再拿客户关系去弥补。但是,出来混(去国外),这个方法就行不通了。

现在华为的拓展重点转向了欧洲,像NVMe AFA这么新的架构的产品,其他存储大厂都还没有,一个中国公司首先做出来了,而且还支持双活,RAID-TP,还有3:1的数据缩减,0.5ms的稳定时延。应该很多客户都持怀疑的态度,最少使用之前都POC一下才行。因此,这个ESG LAB的测试报告,应该有利于消除客户的担心,甚至一般情况免POC,直接参与投标。对于海外的拓展应该是非常有利的一份报告,我觉得其实用价值甚至要高于SPC的性能报告。

我觉得对国内的用户也有参考价值。其实AFA,大家都知道性能肯定好,因此,SPC你测得如何高性能,其实现在用户已经没有太多感觉了。但是,像VDI启动风暴的测试,阵列双活的测试,RAID-TP的测试,SSD重构时间的测试,我相信这些用户更加关心。

我估计很多项目运作中,可能会出现要求提供第三方的测试报告,毕竟不是每个用户都有条件做POC的。原来国内只有华为有SPC的测试报告,后来宏杉、联想和华云网际也参与其中。现在国内的厂商里,好像也只有华为有ESG LAB的测试报告,看这个情况,我估计其他的国产厂商也可能很快跟进。

对于用户来说,这是一件好事,因此招标时厂商都答满足,你也不知道怎么判别真假。有了第三方的测试报告,最少测试过的特性,你就可以认为这块厂商不是忽悠你,而是真实现了。