HDFS的冗余数据保存的优点

转载

mob6454cc73e9a6 2024-09-17 15:55:33

文章标签 HDFS的冗余数据保存的优点 HDFS 数据寻址 文章分类 架构后端开发

HDFS简单介绍

一、HDFS产生背景

随着数据量的越来越大，单台机器的存储空间已经无法满大数据量的存放，所以迫切需要解决这种问题，就有人提出了一种分布式系统来管理多台机器上的文件，那么就解决了单台机器无法满足存储的问题。HDFS只是分布式文件管理系统中的一种。

二、HDFS概念

HDFS，它是一个文件系统，用于存放文件，通过目录树来定位文件；
其次，它也是分布式的，由多台机器联合起来实现其功能，集群中的机器有各自的角色。（namenode、datanode、secondaryNameNode）

三、HDFS优缺点

优点
1）高容错性：数据自动保存多个副本，通过增加副本数，提高容错性；
某一个副本丢失后，它可以自动恢复。
2）适合大数据处理：
数据规模：能够处理数据规模达到GB、TB、PB级别；
文件规模：处理百万规模以上的文件数量
3）流式数据访问，能保证数据一致性
4）可用廉价机器构建，通过多台机器保存多个副本提高容错性
缺点
1）不适合低延时数据访问，比如毫秒级别的存储数据
2）无法高效的对大量小文件进行存储:
           因为每个小文件都会占用namenode内存，因为namenode内存有限；
           再说小文件的寻址时间会超过读取时间，它违反了HDFS的设计目标
3）并发写入、文件随机修改：
           一个文件只能有一个写，不允许多个线程同时写；
           仅支持数据追加，不支持文件随机修改

四、HDFS组成架构

HDFS的冗余数据保存的优点_HDFS

这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。
1）Client：就是客户端。
（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；
（2）与NameNode交互，获取文件的位置信息；
（3）与DataNode交互，读取或者写入数据；
（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；
（5）Client可以通过一些命令来访问HDFS；
2）NameNode：就是Master，它是一个主管、管理者。
（1）管理HDFS的名称空间；
（2）管理数据块（Block）映射信息；
（3）配置副本策略；
（4）处理客户端读写请求。
3） DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。
（1）存储实际的数据块；
（2）执行数据块的读/写操作。
4） Secondary NameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。
（1）辅助NameNode，分担其工作量；
（2）定期合并Fsimage和Edits，并推送给NameNode；
（3）在紧急情况下，可辅助恢复NameNode。

五、文件块大小

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M。
HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传输速率。

如果寻址时间约为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%，我们要将块大小设置约为100MB。默认的块大小128MB。
块的大小：10ms*100*100M/s = 100M

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。