hadoop hdfs组成 hdfs组成部分

转载

桃太郎 2023-08-18 19:26:03

文章标签 hadoop hdfs组成 HDFS 数据块文件系统 文章分类 Hadoop 大数据

1背景

hdfs(hadoop distributed file system，简称hdfs)是高度容错的（有错误可恢复）分布式文件系统，其本身基于流数据模式访问和处理超大文件的需要开发的。具备高容错、高可靠、高可扩展、高获得性、高吞吐率；

HDFS的架构

hdfs是hadoop集群最重要的成员之一，采用Master-Slave（主从）架构；NameNode（主）-DateNode(从)；

NameNode:维护集群内的元数据（文件的属性），对外提供创建、打开、删除以及重命名的功能。

HDFS由四部分组成，HDFS Client、NameNode、DataNode和Secondary NameNode。
HDFS是一个主/从（Mater/Slave）体系结构，HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据，DataNode存储实际的数据。

hadoop hdfs组成 hdfs组成部分_文件系统

hadoop hdfs组成 hdfs组成部分_数据块_02

HDFS客户端：就是客户端。
1、提供一些命令来管理、访问 HDFS，比如启动或者关闭HDFS。
2、与 DataNode 交互，读取或者写入数据；读取时，要与 NameNode 交互，获取文件的位置信息；写入 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

NameNode：即Master，
1、管理 HDFS 的名称空间。
2、管理数据块（Block）映射信息
3、配置副本策略
4、处理客户端读写请求。

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。
1、存储实际的数据块。
2、执行数据块的读/写操作。

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。
1、辅助 NameNode，分担其工作量。
2、定期合并 fsimage和fsedits，并推送给NameNode。
3、在紧急情况下，可辅助恢复 NameNode。

NameNode:是整个文件系统的管理节点。

它维护着1.整个文件系统的文件目录树，2.文件/目录的元信息和每个文件对应的数据块列表。3.接收用户的操作请求。

fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。
edits:操作日志文件。
fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中。

总结：

NameNode维护着2张表：
1.文件系统的目录结构，以及元数据信息
2.文件与数据块（block）列表的对应关系
元数据存放在fsimage中，在运行的时候加载到内存中的(读写比较快)。
操作日志写到edits中。（类似于LSM树中的log）

（刚开始的写文件会写入到内存中和edits中，edits会记录文件系统的每一步操作，当达到一定的容量会将其内容写入fsimage中）

DateNode

提供真实文件数据的存储服务。
文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。
HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block. 不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。ruc

(这样设置可以减轻namenode压力，因为namonode维护者文件与数据块列表的对应大小)