1、【问题2】(9分)分布式存储系统采用什么技术实现数据冗余?分布式系统既要性能高,又要在考虑成本的情况下采用了廉价大容量磁盘,请说明如何配置磁盘较为合理?并说明配置的每种类型磁盘的用途。常见的分布式存储架构有无中心节点架构和有中心节点架构,HDFS(Hadoop Distribution File System)分布式文件系统属于(6)架构,该文件系统由一个(7)节点和若干个 DataNode组成。
答案:
1、副本策略、纠删码
2、配置SSD+HDD混合式存储,由一级RAM、二级SSD、三级大容量磁盘的磁盘结构。RAM用于缓存数据,RAM将需要写入磁盘的数据先快速存入SSD,由于不用寻到,所以速度很快,SSD承担二级缓存的作用,磁盘驱动器再从SSD中数据写入磁盘。有效避免数据直接写入时I/O过程中廉价磁盘的寻道延时。
3、(6) 有中心节点 (7)NameNode
答题解析:
副本策略和纠删码是存储领域常见的两种数据冗余技术。相比于副本策略,纠删码具有更高的磁盘利用率。纠删码是一种编码技术,它可以将n份原始数据,增加m份数据,并能通过n+m份中的任意n份数据,还原为原始数据。即如果有任意小于等于m份的数据失效,仍然能通过剩下的数据还原出来。多副本策略即将数据存储多个副本,如HDFS系统中,一般是三副本,当某个副本丢失时,可以通过其他副本复制回来。
存储系统中为了满足存储的速度和存储容量的高性价比,通常采用的方式是配置小容量的高速存储和大容量的持久化存储设备。小容量高速存储设备用于做缓存,这种设备速度快,但是价格昂贵,不适合做大量的数据存储。通常为了追求大容量存储的高性价比,可以采用速度相对较低,但是存储容量大,价格比较低的硬盘。因此合适的方式是配置SSD+HDD混合式存储。
其中SSD用于做缓存,HDD要有做持久化存储。
HDFS分布式文件系统属于一种有中心节点的架构,也就是常用的master/slave架构.以glusterfs为代表的属于无中心架构 。HDFS文件系统由一个NameNode节点和若干个 DataNode组成。
查看完整试题>>>