决定以后要持续关注云存储相关技术,今天开始搜集相关概念整理如下
什么是云存储在最近对云计算的所有关注中,存储更多地被视为基础平台。时至今日,许多云计算提供的仅仅局限于CPU内核的集合,定量的内存分配,低转速存储,或者还有一些面向互联网的IP技术。近来,出现了有趣的与云计算和存储相关的高级技术,特别是使用Web Services访问方式,使得访问存储不再受限于设备文件或者NFS加载点。
云存储在云计算 (cloud computing)概念上延伸和发展出来的一个新的概念。云计算是是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和"超级计算机"同样强大的网络服务。
云存储的概念与云计算类似,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 如果这样解释还是难以理解,那我们可以借用广域网和互联网的结构来解释云存储。
云状的网络结构
相信大家对局域网、广域网和互联网都已经非常了解了。在常见的局域网系统中,我们为了能更好地使用局域网,一般来讲,使用者需要非常清楚地知道网络中每一个软硬件的型号和配置,比如采用什么型号交换机,有多少个端口,采用了什么路由器和防火墙,分别是如何设置的。系统中有多少个服务器,分别安装了什么操作系统和软件。各设备之间采用什么类型的连接线缆,分配了什么 xml:lang=IP地址和子网掩码。
但当我们使用广域网和互联网时,我们只需要知道是什么样的接入网和用户名、密码就可以连接到广域网和互联网,并不需要知道广域网和互联网中到底有多少台交换机、路由器、防火墙和服务器,不需要知道数据是通过什么样的路由到达我们的电脑,也不需要知道网络中的服务器分别安装了什么软件,更不需要知道网络中各设备之间采用了什么样的连接线缆和端口。 广域网和互联网对于具体的使用者是完全透明的,我们经常用一个云状的图形来表示广域网和互联网,如下图:
虽然这个云图中包含了许许多多的交换机、路由器、防火墙和服务器,但对具体的广域网、互联网用户来讲,这些都是不需要知道的。这个云状图形代表的是广域网和互联网带给大家的互联互通的网络服务,无论我们在任何地方,都可以通过一个网络接入线缆和一个用户、密码,就可以接入广域网和互联网,享受网络带给我们的服务。
参考云状的网络结构,创建一个新型的云状结构的存储系统系统,这个存储系统由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。
当我们使用某一个独立的存储设备时,我们必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,我们还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期地状态监控、维护、软硬件更新和升级也是必须的。如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。
前提一、宽带网络的发展
真正的云存储系统将会是一个多区域分布、遍布全国、甚至于遍布全球的庞大公用系统,使用者需要通过ADSL、DDN等宽带接入设备来连接云存储,而不是通过FC、 SCSI或以太网线缆直接连接一台独立的、私有的存储设备上。只有宽带网络得到充足的发展,使用者才有可能获得足够大的数据传输带宽,实现大量容量数据的传输,真正享受到云存储服务,否则只能是空谈。
二、 WEB2.0技术
Web2.0 技术的核心是分享。只有通过web2.0技术,云存储的使用者才有可能通过 PC、手机、移动多媒体等多种设备,实现数据、文档、图片和视音频等内容的集中存储和资料共享。Web2.0技术的发展使得使用者的应用方式和可得服务更加灵活和多样。
三、应用存储的发展
云存储不仅仅是存储,更多的是应用。应用存储是一种在存储设备中集成了应用软件功能的存储设备,它不仅具有数据存储功能,还具有应用软件功能,可以看作是服务器和存储设备的集合体。应用存储技术的发展可以大量减少云存储中服务器的数量,从而降低系统建设成本,减少系统中由服务器造成单点故障和性能瓶颈,减少数据传输环节,提供系统性能和效率,保证整个系统的高效稳定运行。
四、集群技术、网格技术和分布式文件系统
云存储系统是一个多存储设备、多应用、多服务协同工作的集合体,任何一个单点的存储系统都不是云存储。
既然是由多个存储设备构成的,不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术,实现多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。如果没有这些技术的存在,云存储就不可能真正实现,所谓的云存储只能是一个一个的独立系统,不能形成云状结构。
五、 CDN内容分发、P2P技术、数据压缩技术
CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术
CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。如果云存储中的数据安全得不到保证,想来也没有人敢用云存储,否则,保存的数据不是很快丢失了,就是全国人民都知道了。
六、存储虚拟化技术、存储网络化管理技术
云存储中的存储设备数量庞大且分布多在不同地域,如何实现不同厂商、不同型号甚至于不同类型(如FC存储和 IP存储)的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题,这个问题得不到解决,存储设备就会是整个云存储系统的性能瓶颈,结构上也无法形成一个整体,而且还会带来后期容量和性能扩展难等问题。
云存储中的存储设备数量庞大、分布地域广造成的另外一个问题就是存储设备运营管理问题。虽然这些问题对云存储的使用者来讲根本不需要关心,但对于云存储的运营单位来讲,却必须要通过切实可行和有效的手段来解决集中管理难、状态监控难、故障维护难、人力成本高等问题。因此,云存储必须要具有一个高效的类似与网络管理软件一样的集中管理平台,可实现云存储系统中设有存储设备、服务器和网络设备的集中管理和状态监控。
架构架构方法分为两类:一种是通过服务来架构;另一种是通过软件或硬件设备来架构。
传统的系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,现在其正在向外扩展成为云存储从而满足快速呈现的市场需求。下一代架构已经采用了松弛耦合非对称架构,集中元数据和控制操作,这种架构并不非常适合高性能HPC,但是这种设计旨在解决云部署的大容量存储需求。各种架构的摘要信息如下:
紧耦合对称(TCS)架构
构建TCS系统是为了解决单一文件性能所面临的挑战,这种挑战限制了传统NAS系统的发展。HPC系统所具有的优势迅速压倒了存储,因为它们需要的单一文件I/O操作要比单一设备的I/O操作多得多。业内对此的回应是创建利用TCS架构的产品,很多节点同时伴随着分布式锁管理(锁定文件不同部分的写操作)和缓存一致性功能。这种解决方案对于单文件吞吐量问题很有效,几个不同行业的很多HPC客户已经采用了这种解决方案。这种解决方案很先进,需要一定程度的技术经验才能安装和使用。
松弛耦合非对称(LCA)架构
LCA系统采用不同的方法来向外扩展。它不是通过执行某个策略来使每个节点知道每个行动所执行的操作,而是利用一个数据路径之外的中央元数据控制服务器。集中控制提供了很多好处,允许进行新层次的扩展:
● 存储节点可以将重点放在提供读写服务的要求上,而不需要来自网络节点的确认信息。
● 节点可以利用不同的商品硬件CPU和存储配置,而且仍然在云存储中发挥作用。
● 用户可以通过利用硬件性能或虚拟化实例来调整云存储。
● 消除节点之间共享的大量状态开销也可以消除用户计算机互联的需要,如光纤通道或infiniband,从而进一步降低成本。
● 异构硬件的混合和匹配使用户能够在需要的时候在当前经济规模的基础上扩大存储,同时还能提供永久的数据可用性。
● 拥有集中元数据意味着,存储节点可以旋转地进行深层次应用程序归档,而且在控制节点上,元数据经常都是可用的。
模型云存储系统的结构模型由 4层组成。
一、存储层
存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和 iSCSI等IP存储设备,也可以是 SCSI或SAS等 DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者 FC光纤通道网络连接在一起。
存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。
二、基础管理层
基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。
CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。
三、应用接口层
应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。
四、访问层
任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。
模式
● 服务模式
:最普遍的情况下, 当你考虑云存储的时候,你就会想到其所提供的服务产品。这种模式很容易开始,其可扩展性几乎是瞬间的。根据定义,你拥有一份异地数据的备份。然而,带宽是有限的,因此要考虑你的恢复模型。你必须要满足你网络之外的数据的需求。
● HW模式
:这种部署位于防火墙背后,并且其提供的吞吐量要比公共的内部网络好。购买整合的硬件存储解决方案非常方便,而且,如果厂商在安装/管理上做的好的话,其往往伴随有机架和堆栈模型。但是,这样你就会放弃某些摩尔定律的优势,因为你会受到硬件设备的限制。
● SW模式
:SW模式具有HW模式所具有的优势。另外,它还具有HW所没有的价格竞争优势。然而,其安装/管理过程序要谨慎关注,因为安装某些SW的确非常困难,或者可能需要其他条件来限制人们选择HW,而选择SW。 必备要素要素1:性能
性能需要付出成本。在一个架构良好的应用里,性能和成本处于平衡状态。达到这点的关键是使用合适的技术去匹配企业业务应用的性能,首先要求将企业的业务语言转换成IT模式。因为这种转换困难,通常企业止步于静态的IT架构,无法应对业务变化着的性能需求。企业云计算提供了一个更能应对变化着的性能需求的平台。
在早期的云计算平台里,存储I/O一般都会有较高的延迟。这是因为厂商注意到使云计算的数据更容易访问,但没注意到提高与性能、带宽和IOPS相关的服务级别。有两个原因导致延迟较高:访问的模式和类型,以及存储分布的配置。
访问模式包括位于OSI模型物理层之上的多层协议的组合(如SOAP, NFS, TCP, IP和FCP)。数据访问包括共享的物理服务层(如以太网)和几个协议层(如SOAP或NFS),一般比专门的物理层(如FC)产生更多的延迟。市场上大多数云计算平台包括Internet的数据访问,产生了更多的数据访问延迟。
对于存储介质,大多数云计算的市场在RAID或JBOD配置中使用SATA磁盘。因为SATA(有段时间被视为近线磁盘)的性能一般比企业磁盘(一般指FC盘)稍差一些,导致存储设备的性能低于应用的需求。
当你采用低性能存储介质的相对低带宽和高延迟的访问模式时,使用整个存储子系统的企业无法支持更多的关键业务应用的需求。其结果是,这种方案通常仅适用于测试和开发。
相比来说,企业云计算平台需要提供更多不同性能存储层的选择。当性能需求的变化时,例如,应用从测试迁移到生产环境,存储平台应该能使用这种变化。理想的企业云计算的存储应该有多种性能区,能够被调整,以提供合适的I/O性能级别给业务性能的需求。
最后,为了满足企业高端存储的性能需求,云计算方案必须采用高于或者目前正在使用的企业级技术。一般使用FCSAN。此外,如何使用技术与技术本身同等重要。在一个系统管理环境里,企业级需求下的虚拟机配置必须能够持续提供高性能。
要素2:安全性
安全性和虚拟化通常被视为相互矛盾的。毕竟虚拟化使得应用从物理硬件和网络边界中解放出来。安全性,换而言之,就是建立边界。企业需要考虑虚拟化设计的初始架构。
在大多数云计算市场里,无论公有的还是私有的,数据安全性都是基于信任的,这信任通常都在管理程序里。当多数虚机共享物理LUN,CPU和内存时,由管理程序确保数据是否毁坏或者被错误的虚机访问。这与集群服务器多年来面临的基本挑战相同。任何也许需要接管进程的物理服务器必须能访问数据/应用/操作系统的权限。例如,为了主机外备份,LUN也许需要映射给公共的备份服务器。
在企业云计算中,有两种方式去保护业务数据。第一种涉及系统程序管理安全。主要的目标是:系统尽可能少地被使用,避免任何虚拟机被其他虚拟机造成负面的影响。企业也需要保护LUN被其他服务器访问,如同主机外备份服务器。
其他需要注意的地方是数据通道。企业必须注意只能给需要维护必要功能的物理服务器提供访问路径。这可以通过NPIV(SAN N端口 ID虚拟化)使用得Zoning、LUN Masking、访问列表、权限配置来完成。
[导读]典型的数据存储和管理的"企业级特征"在IT架构创新上不断推成出新。存储架构师意识到这些特征对于关键业务和生产应用非常重要,但目前的云计算还缺乏这些特征。
要素3:自动ILM存储
信息生命周期管理(ILM)曾经成为非常有效的市场行为的重心,被那些出售分层存储的厂商所推崇。虽然ILM本质上非常简单 -存储的成本与数据的业务价值相匹配,实际的挑战来自于真正的执行效果,众多所谓的ILM方案,粒度都不够细,难以达到这样的目标。
今天,传统的ILM并没有部署到市场上的大多数云计算平台中。原因有两个,第一,在许多云计算中,大部分磁盘介质采用处于典型ILM方案中的最低层存储,这样就没法把数据往更底层迁移,ILM也就无法部署。第二,许多企业不需要为云计算常用的计算类型而更长时间地管理数据,因为传统云计算通常用于功能测试/开发、概念验证(POC)、Web服务器测试等。考虑到多种因素,实施ILM策略所需细粒度的复杂性和成本与经济节省的云计算不相符。
根据一些行业报告,70%的数据是静态的。通过将合适的数据存储在合适的介质上,企业能削减成本。他们能意识到通过部署云平台能节省成本,在云计算中实施ILM带来的经济效益意义重大。但前提是无需中断应用,而且不能增加不必要的操作复杂性。
为了做到这些,企业必须使用基于策略的块级ILM方法,无论访问方式和应用类型。通过在数据块一级跟踪数据的属性,就无需在操作系统这一级执行数据归档或数据迁移。这种方法还能独立于操作系统类型,且独立于用于存储数据的访问方式。它不仅在保持性能(所有的数据写入都在高速层完成)的同时优化存储的成本,而且通过将不使用的数据块沉淀到低速层减少电能的消耗。这很合理,因为近线存储仅消耗企业存储的大约20%的能耗。为此,要做到真正适合企业级应用的自动分级存储,卷级或文件级数据迁移无法胜任,颗粒度必须细化到数据块级。只有数据块级的数据迁移才可能独立于操作系统类型,且独立于存储数据的访问方式,做到对应用支持的随需相应。
要素4:存储访问模式
访问存储空间有三种主流方式:基于数据块(FCSAN或iSCSI)、基于文件(CIFS/NFS)、或通过Web服务。基于块和文件的访问方式在企业应用中最常见,能更好地控制性能、可用性和安全性。在这点上,市场上大多数云计算平台利用Web服务的接口,如SOAP和REST(代表性状态传输)访问数据。虽然,这是最灵活的方式,但有性能的影响。理想的情况是,企业云提供全部的三种访问存储的方式来支持不同应用架构。
要素5:可用性
IT架构的维护窗口被大量的缩减,因为企业需要支持在不同时区的用户并保证全天候的可用性。虽然服务级别协议(SLA)一般与可用性密不可分,从业务角度看,它难以衡量,因为有着多种架构的复合SLA的重叠。
在前面提到,在市场上大多数云计算平台中,I/O性能最先得到考虑。如果云平台依赖于不被内部IT集团管理的部分架构,那么冗余的架构部分和途径是减少停机风险的最佳方式。虽然,云存储服务提供商在考虑成本的同时继续增加可用性,但是目前市场上的服务级别协议不能满足企业关键应用的需求。
在高端的企业级云计算中,存储系统够出来企业内的企业级存储方案,包括多路径、控制器、不同的光纤网、RAID技术、端到端的架构控制/监控,和成熟的变更管理过程。在低端的企业级云计算中,存储可用性与今天市场上云计算平台的服务水平相当。为了提供企业需要的服务水平,企业级云存储供应商必须利用健全的架构设计和被充分验证过的创新技术。
要素6:主数据保护
主数据指的是在线运行的数据。主数据能够采用单一技术,或者结合多种技术进行保护。一些常用的方法包括:RAID保护、多份拷贝、远程复制、快照、和持续数据保护。
在市场上大多数云计算平台里,主数据保护的问题常常留给用户。今天,很少发现上述的方法在大众云计算平台中使用,因为技术的复杂性和成本。有一些大众云存储方案通过维护数据的多份拷贝来保护主数据,整个系统运行没有RAID保护的存储里,以此降低成本。
企业级云的主数据保护应该基于内部企业级方案。当方案的业务影响分析(BIA)需要时,例如快照和容灾等可靠的技术应该就绪。
内部企业方案和企业云存储的主要差别在于,主数据保护在方案中是如何绑定的。为了延续根据需要部署云环境的经验,各种选项必须打包,这样服务能自动部署。其结果是,将一系列绑定的选项打包,能够应对大量需求。也许不存在可以利用快照、远程复制等与客户需求相匹配的技术。无论如何,多数用户将意识到,常常需要牺牲灵活性去获取在企业云中其它的管理好处。
要素7:次级数据保护
次级数据来源于主数据的历史拷贝来形成备份。这种数据保护意味着减少数据损坏,恢复被删除或被写覆盖的数据,为了业务或法规的需要将数据长期保存。典型的方案常包括备份软件和几类存储媒介。数据重复删除也许能被用上,但这在关系到数据隔离的多用户环境下,可能产生些问题。
有些商业和公共领域上的方案,被加入到大众云存储中,以完成次级数据保护。但大众云计算平台的供应商很少将这些与在线存储一并打包。虽然原因各异,但在许多情况下,与恢复时间和保留期相关的服务水平(SLA)问题很难处理。
无论方案是私有的还是多客户云平台,管理手段、可见性和恢复的服务水平是次级数据保护的关键。一旦提交恢复请求,恢复的启动应该直接而且能够自动完成。用户应该能掌控可预见的恢复性能水平(恢复的数据GB/时长),而且应该能从一个简短的选项列表中选择保留的时长。最后,用户应该能检查那些在线备份的状态。因为频度和保留期决定了存储备份所需的资源 - 也就是成本 - 客户应该能够在线观察资源使用状况和收费情况,以免在结账时感到意外。
要素8:存储的灵活适应性
存储的灵活适应性是指能够根据业务的需要的变化做到存储资源的随需响应。归根结底,它取决于操作系统对存储变化的检查能力和所使用的访问方式。
在这里讨论的9个要素里,这一点是大众型云计算平台做得最好的要素。大多数方案都有按照预先设计的数量,逐渐增加存储的能力。删除空间也是一个选项,通常用于卷或加载点。如上所述,操作系统对存储变化的应对能力通常是个局限。
支持企业云需求的存储需要能灵活扩展,需按照客户能理解的方式计费。虽然增加和删除存储空间非常重要,用户倾向于仅为其用到的空间付费。他们也希望在基于Web的管理方式下,具有调整和生成使用状况报表的功能。这种功能帮助他们控制成本,提供业务规划的智能。
要素9:存储报表
当公司考虑将其全部或部分IT架构外包的时候,经常顾虑的是这些特定技术的不可见性。客户需要包括从容量和性能角度了解运行环境的状态。为了达到这个目的,通过用户管理界面,输出丰富的存储报表成为必须,使得客户对于存储高效的运行充满信心。
在市场上云计算平台里,与存储相关的报表是最基本的工具。许多提供商提供标准的报表来使用,在一些场合下,他们也提供基本的性能评估工具,或者来自提供商,或者来自共享厂商,或者是第三方工具。
企业云比传统企业存储有优势,传统企业存储常常导致客户使用单一存储厂商的方案。这使得报表非常简单,因为数据不用像来自多厂商平台那样,需要进行翻译,才能生成一份统一外观的报表。有关历史和实时使用情况的详细信息,连同一些关键性能指标 - 历史的或实时的 - 应该可通过用户管理界面7x24小时实时查看。最终,为了减少企业对失去控制的担忧,云计算的提供商应该具备更综合性、更精确的报表能力,尤其是对于存储系统使用情况的可见性。
结论一个强健的企业级云不应该只片面关注CPU、内存、磁盘、和IP地址分配,在规划企业级云计算平台策略时,应该包括本文所提到的9大要素。这样,企业才能拥更完备的云计算平台来支持业务运行。
主要摘录自:百度百科和http://www.itokit.com/2011/0615/66673.html