大数据_06 【hadoop HDFS文件读写流程】

  • 01 文件写入过程
  • 02 文件读取过程
  • 03 数据校验
  • 04 DataNode节点丢失周期
  • 05 DataNode的目录结构


01 文件写入过程

hadoop output写入 hadoop将数据写入文件的过程_大数据

详细步骤解析:
1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;
2、 client请求第一个block该传输到哪些DataNode服务器上;
3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;

4、 client请求3台DataNode中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将整个pipeline建立完成,后逐级返回client;
5、 client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位(默认64K),A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答。
6、 数据被分割成一个个packet数据包在pipeline上依次传输,在pipeline反方向上,逐个发送ack(命令正确应答),最终由pipeline中第一个DataNode节点A将pipelineack发送给client;
7、关闭写入流。
8、 当一个block传输完成之后,client再次请求NameNode上传第二个block到服务器。

02 文件读取过程

hadoop output写入 hadoop将数据写入文件的过程_大数据_02

1、		客户端通过调用FileSystem对象的open()来读取希望打开的文件。
2、 	Client向NameNode发起RPC请求,来确定请求文件block所在的位置; 
3、 	NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode 都会返回含有该 block 副本的 DataNode 地址;  这些返回的 DN 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后; 
4、 	Client 选取排序靠前的 DataNode 来读取 block,如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性); 
5、 	底层上本质是建立 Socket Stream(FSDataInputStream),重复的调用父类 DataInputStream 的 read 方法,直到这个块上的数据读取完毕; 
6、		并行读取,若失败重新读取
7、 	当读完列表的 block 后,若文件读取还没有结束,客户端会继续向NameNode 获取下一批的 block 列表; 
8、		返回后续block列表
9、  	最终关闭读流,并将读取来所有的 block 会合并成一个完整的最终文件。

03 数据校验

hadoop output写入 hadoop将数据写入文件的过程_上传_03

1、	数据第一次写入成功后,会进行数据校验,获得校验和。
2、	数据读取前,对数据进行校验,获得校验和,计算得到的校验和与第一次上传后的校验和进行对比。
3、	两个校验和相同表示数据相同,可以提读取数据
4、	两个校验和不相同表示数据不相同,节点去其他节点读取

5、	数据节点周期进行校验和计算,防止数据丢失。

04 DataNode节点丢失周期

DataNode节点长时间没有给NameNode汇报心跳,NameNode认为其丢失。
长时间(10分钟+30秒): 2 * 超时时间 + 10 * 心跳周期

05 DataNode的目录结构

和namenode不同的是,datanode的存储目录是初始阶段自动创建的,不需要额外格式化。在/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas/current这个目录下查看版本号

[root@node01 current]# cat VERSION 
#Thu Mar 14 07:58:46 CST 2019
storageID=DS-47bcc6d5-c9b7-4c88-9cc8-6154b8a2bf39
clusterID=CID-dac2e9fa-65d2-4963-a7b5-bb4d0280d3f4
cTime=0
datanodeUuid=c44514a0-9ed6-4642-b3a8-5af79f03d7a4
storageType=DATA_NODE
layoutVersion=-56
具体解释
(1)storageID:		存储id号
(2)clusterID		集群id,全局唯一
(3)cTime			属性标记了datanode存储系统的创建时间,对于刚刚格式化的存储系统,这个属性为0;但是在文件系统升级之后,该值会更新到新的时间戳。
(4)datanodeUuid:	datanode的唯一识别码
(5)storageType:	存储类型
(6)layoutVersion	是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。

目录结构

hadoop output写入 hadoop将数据写入文件的过程_hadoop output写入_04