hdfs预读

转载

mob64ca1416f1ef 2024-10-10 08:14:24

文章标签 hdfs预读 HDFS读流程、写流程客户端数据下载文件 文章分类 架构后端开发

HDFS写流程

1.客户端（client）会先和NameNode联系，在NameNode虚拟目录下创建文件（没有创建有的话就不能上传了这个过程是在Path路径进行检查的）。这个过程是可以看见的显示copying这时文件是不能读取的，NameNode会根据副本放置策略分发副本（第一个在本机架另外两个在其他机架）NameNode会把这三个节点的位置返回给客户端。如果客户端在集群外namenode会根据策略先找一个机架放datanode在另外机架上放置另外两台datanode，namenode会让他们之间建立一定联系组建一个顺序。
2.客户端会根据返回的三个节点跟第一个节点建立关系socket链接（只跟第一个节点建立）然后第一个在和第二个进行socket链接第二个和第三个进行socket链接这个链接叫做Pippeline（管道）也就就是one by one 一个接着一个。
3.文件传输的切片大小是64M或者是128M，我们把这个块自定成更小的包来传输这样可以在客户端给第一个传输的时候第一个给第二个也在传输以此类推像流水线一样这样可以提高工作效率这个方式可以叫做：充分利用了时间线的重叠,就是在你给我的时候我也在给别人。也间接的说明给一个副本传完其他的也有了。
4.datanode在namenode中的三个位置的由来
namenode和datanode本来保持这连接，在客户端通过Pipeline传输完数据打他node就会把自己的位置发送给namenode。这个过程是系统自带的，并且这个过程是在客户端给其他块传输数据时完成的非常快。
5.如果在传输的过程中datanode挂掉了就直接记录并上传信息继续向其他节点传输不影响速度。

过程如图：

hdfs预读_hdfs预读