hdfs写文件spark hdfs写数据的流程是什么

转载

mob6454cc694d8e 2023-07-14 15:59:57

文章标签 hdfs写文件spark HDFS写数据流程写数据 HDFS 上传 文章分类 Spark 大数据

初学耗时：0.5h

一、HDFS写数据流程

记忆词：

HDFS写数据流程

一、HDFS写数据流程

hdfs写文件spark hdfs写数据的流程是什么_写数据

client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
client 请求第一个 block 该传输到哪些 DataNode 服务器上；
NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的 DataNode 的地址，如：A，B，C；
…
注：默认存储策略由 BlockPlacementPolicyDefault 类支持。也就是日常生活中提到最经典的 3 副本策略。
…
1st replica 如果写请求方所在机器是其中一个 datanode,则直接存放在本地,否则随机在集群中选择一个 datanode。
2nd replica 第二个副本存放于不同第一个副本的所在的机架。
3rd replica 第三个副本存放于第二个副本所在的机架,但是属于不同的节点。
client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline），A 收到请求会继续调用 B，然后 B 调用 C，将整个pipeline 建立完成，后逐级返回 client；
client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认 64K），A 收到一个 packet 就会传给 B，B 传给 C；A 每传一个 packet 会放入一个应答队列等待应答。
数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在pipeline 反方向上，逐个发送 ack（命令正确应答），最终由 pipeline中第一个 DataNode 节点 A 将 pipeline ack 发送给 client;
当一个 block 传输完成之后，client 再次请求 NameNode 上传第二个block 到服务器。

冠盖满京华，斯人独憔悴。