1、概述

IsilonEMC收购的NAS集群产品,其最大的特点在于可以进行线性扩展。随着节点数目的增加,Isilon的性能可以线性增长。在大数据时代,和传统的Scale Up存储相比,Isilon是一款很具竞争性的存储产品。

2Cluster Storage存储结构

2.1Cluster Storage分类

Clustered Storage architectures are changing the rules of how data is stored and accessed

Isilon在很早就提出了新的存储体系结构Cluster Storage,这是Isilon对存储体系结构的一种分类:

 

wKiom1NfqKySP50yAAA9nkEn5RY897.jpg

 

DASNASSAN都有别,Cluster storage可以被分为如下三种解决方案:

u2-way热备结构的集群

uNAS集群(Namespace Aggregation

u分布式集群存储(Distributed Cluster Storage

2.2 2-way热备结构的集群

wKiom1NfqVSxWdwgAAB1s6RsWrE128.jpg

 

2-way热备结构的集群实际上就是双机热备的方式,这种集群的主要目的是为了提高设备的高可用,采用了全冗余手段,NAS厂商往往将这种技术称之为“2-way Clustering”。2-way clustering主要是为了提高设备的可用性,因此单个设备的体系结构和传统的存储结构是一致的。

这种架构与生俱来的特点限制了系统的性能以及可扩展性,小的文件系统容量、管理的复杂性以及相关高昂的HA软件费用都是该技术推广的主要障碍。随着信息量的爆炸式增长,这种解决方案将不会满足企业未来发展的需求。

2.3NAS集群(Namespace aggregation

 

wKiom1NfqbuggN2eAAB-t-9H-c0386.jpg

 

NAS集群可以向外提供一个相同的目录树,这样便于存储的管理。这样的解决方案完全是一个基于软件的解决方案。在这种解决方案中,每个存储节点智能访问所属的存储空间,不能对其他的存储空间进行访问。

2.4 Distributed Clustered Storage (DCS)

这种解决方案就是Isilon提出的OneFS方案。这种方案是在N-way热备冗余和NAS集群的基础之上发展起来的。

这种方案与2-way方案相比,在冗余度上实为最佳冗余,与NAS集群系统相比,DCS系统中的节点可以访问所有的存储空间,而NAS集群中的节点只能访问所属的存储空间。DCS内部的软件可以使得所有的节点对称分布,因此,这个集群系统可以构成同一的整体,每个节点都独立运行自己的软件,与其他的节点能够互相通信,传输对方需要的文件。由于集群中的每个节点都是相互联系的,因此,每个节点都知道其他节点的所有事情,正因为这样的一个特性,distributed clustered storage才能提供最高级别的高可用、高可靠和高度的聚合吞吐量。

 

Cluster Storage三种方案比较总结:

2-way热备结构

文件存储在一个存储空间中,这种结构主要是用作高可用的

NAS集群

向外提供统一的文件树,但是每个集群节点只能访问所属的存储空间

Distributed clustered storageclustered storage with DFS

向外提供统一的文件树,每个集群节点之间都可以互相通信,每个节点都知道其他节点的操作,提供系统的高可用。

2.5 Cluster Storage三种解决方案比较

Isilon的解决方案具备如下几个方面的特点:

u对称均衡的集群结构

u可升级的分布式文件系统

u与生俱来的高可用特性

u单一便捷的管理方法

u线性可升级的特性

u企业级存储要求

 

三种cluster storage集群方案在这些方面的比较如下:

wKiom1NfqjuzvnaoAACkuKRhv1U938.jpg

 

3Isilon集群存储

3.1Isilon的多层体系存储解决方案

Isilon提供多层体系结构的存储解决方案,在应用层其提供了数据迁移软件SyncIQ,可以完成基本的数据存储和数据归档任务。在SyncIQ的下方为OneFS分布式文件系统,另外Isilon还提供了系列工业级的存储硬件。下图描述了Isilon存储解决的体系结构:

 

wKiom1NfqmLCqeOlAAD3Q8abscY384.jpg

 

Isilon的存储解决方案中的软件体系架构如下:

 

wKioL1Nfql7iyLVsAAIWQbVSfzI653.jpg

 

u在应用层的软件为SyncIQ Replication Software,该软件的主要作用是用来进行数据迁移,应用于数据的远程容灾、数据信息生命周期管理以及近线或者远程数据备份。该软件是文件级的数据迁移操作。

u在应用软件的下面是解决方案的核心软件OneFS分布式文件系统。该软件主要由以下几大模块构成:

AutoBalance:该模块的作用是自动平衡集群节点的数据分布。

FlexProtect-AP:该模块的作用是完成数据保护等方面的工作,为系统提供高可用的保障

SmartConnet:该模块的作用是平衡客户端连接集群节点,使系统的性能达到最优化

SmartRead:该模块是一个读操作的一个智能算法

WebAdmin:这是一个简单的,基于Web的管理工具

3.2Isilon IQ的产品线

Isilon IQ产品线的性能和容量之间的关系如下:

 

wKiom1NfqtOirEz3AAGWmuxs9JA388.jpg

 

3.3 Isilon IQ产品主要特性

下面对Isilon IQ产品的一些主要特性进行归纳。

3.3.1可扩展的分布式文件系统

Isilon集群存储的核心部分是OneFS,这是一个具有专利保护的文件系统。他由传统意义上的三层功能构成:文件系统、卷管理和RAID

 

wKiom1Nfqw6DUevRAACBzJGu68U531.jpg

 

OneFS提供了大存储空间的管理、快速的文件访问、内嵌的高可用、简便的扩容能力、10GB/s的数据吞吐量以及数百T的存储容量,所有这些功能都来自一个网络文件系统。

 

OneFS独特的条带化文件分布式对传统一个设备中数据的条带化分布的一种改进。OneFS为每个存储节点提供了整个文件系统的布局信息,并且让每个节点知道文件或者文件的部分存储在什么地方。

 

3.3.2均衡对称的体系结构

每个Isilon IQ集群由396个节点构成,每个节点由磁盘、存储服务器、CPU、内存和网络,每个节点都封装在紧凑的2U机箱中。ISilon IQ节点能够自动的一起工作,利用集体的力量将单个一体化的存储变得强大,并且这个系统能够容忍系统中的任何硬件部件损坏,包括磁盘、交换机甚至于整个节点。

 

在一个完全分布式的体系结构中,让集群系统中的所有节点都同步的工作是由难度的。Isilon IQ利用了千兆以太网或者是低延迟的InfiniBand实现了节点之间的互连。通过该互连可以实现同步以及内部操作。这样就允许节点与节点之间共享信息,也就达到了每个节点都能知道其他节点操作的目的。

Isilon IQ系统的体系结构如下图所示:

 

wKiom1Nfq0SRAd0YAAFZSL3wN_E554.jpg

 

Isilon IQ集群存储中的每个节点都能执行读写请求,并且每个节点都能代表整个文件系统,所有的节点在集群中都是平等的,所以,这个系统是完全均衡对称的,避免了层次与固有的性能瓶颈。

3.3.3与生俱来的高可用性

保证数据的完整性,避免单点故障的唯一可行的办法是将所有节点构成平等对称的集群。由于Isilon IQ中的每个节点都是平等的,每个节点都可以处理来自AS端的读写请求,能够为AS提供服务,因此,当系统中的某个节点宕掉,其他的任何节点都可以完成任务,这样就避免了单点故障。

 

Isilon IQ支持多节点故障。采用Isilon IQ系统,用户可以经受得住多块磁盘或者整个节点失效,而不影响数据完整的访问。OneFS的独特FlexProtect-APOneFS中用于数据保护的模块)特性利用了ReedSolomon ECCerror correction code)编码、奇偶条带分布以及文件条带镜像办法。这些策略都可以被设置成任何级别,包括:clusterdirectorysub-directory,或者individual file level。在Isilon系统中,所有文件被条带化的存储到各个节点中,不会有单个节点存储100%的文件信息,如果一个节点发生故障,集群中的其他节点仍然可以将100%的文件发送出去,而不需要中止服务。用户可以针对自己的需求任意的改变某个数据的保护级别。

 

在多种文件级别上,用户可以设置数据保护方法,不同的数据保护方法具有不同的算法复杂度和数据可用性,这些都可以由用户来设置,下图描述了用户设置数据保护的方法:

 

wKiom1Nfq47Dx_hQAAFTzbA1gBk695.jpg

 

目前,Isilon系统可以支持“n+4”模式,也就是系统中同时存在4个故障点的时候,系统仍然能够维持运行。可以说,Isilon系统是可用性级别极高的集群。

 

OneFS将条带化的数据和ECC校验数据交叉存储到整个节点中,而不是多个磁盘中,这样就能得到更高性能的数据保护功能。下图演示了“n+1和“n+2的数据保护方案,当节点或者磁盘遭到破坏之后,系统会自动将数据重组恢复到交叉的有效空闲空间中去。

 

wKiom1Nfq6-BOmH1AAFAi0L1FzA903.jpg

 

举一个例子,Isilon采用“n+2”的双ECC纠错码,其允许集群系统中两个磁盘或者两个节点同时发生故障。一个文件在集群系统中的分布如下图所示:

 

wKioL1Nfq6TCW8NvAACh9tw6oYQ797.jpg

 

Isilon IQ具有很好的磁盘恢复性能。在故障事件中,OneFS会将文件自动地重构到分布式的空闲空间中,避免了传统rebuild过程中需要额外的“parity drives”。OneFS在数据恢复过程中有效利用集群系统中的空闲空间是有优势的,通过利用空闲空间以及集群的多处理器计算能力,Isilon的数据恢复能力比传统体系结构快5~10倍。

 

在传统的存储系统中,数据恢复就需要占用处理器的许多时间,并且伴随着磁盘容量的增大,这个问题在恶化。目前磁盘容量达到500GB,随着1TB磁盘的出现,传统存储系统将需要花费24小时以上的时间去恢复磁盘故障,并且在这段时间内这个系统是十分脆弱的,很容易导致数据的丢失。

 

下图是Isilon系统与FC等磁盘(传统体系结构)在rebuild时间上的对比。

 

wKioL1Nfq9SC5M0zAAFaORqYg_w727.jpg

 

Isilon在自我复原方面具有很强的能力。OneFS不断的监测所有文件、磁盘的健康状况,并且维护了一个smart统计信息表,通过这个表可以预见磁盘的失效情况。当OneFS监测到一个部件处于危险状态,他会强制的将处于危险设备中的数据迁移到有效的空闲空间,这一切的所有操作都是自动和对用户透明的。一旦数据迁移之后,用户将会被通知去维修这个处于潜在隐患的部件。这样的一个特性能够保证写入的数据100%可靠,bit-for-bit的正确以及高可用。到目前为止,还没有其他的集群解决方案能够提供如此可靠程度的数据保护。

 

在这里再说明一点,Isilon集群在数据恢复的过程中,将需要rebuild的数据恢复到其他存储空间的剩余空间中。这就相当于一个系统中坏掉一个设备,那么就将该设备从集群系统中剔除,但是不再需要重新加入一个新的节点。以后如果用户加入了一个新的节点,那么根据数据的均衡分布,系统会自动将数据均衡的迁移到新加入的节点中,从而保证系统最优化的运行。下图描述了节点发生故障后,rebuild数据的分布。

 

wKiom1NfrB-hAk52AAE2PK0RrgE122.jpg

 

第一幅图为正常情况

第二幅图为发生节点故障时的情况

第三幅图为数据恢复之后的情况

 

<待续>