hdfs写入clickhouse java hdfs写入过程

转载

mob6454cc749e02 2023-07-20 21:26:39

文章标签 大数据上传客户端上传数据 文章分类 Java 后端开发

7、HDFS的文件写入过程

hdfs写入clickhouse java hdfs写入过程_客户端

详细步骤解析：

1、RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；

2、block该传输到哪些DataNode服务器上；

3、DataNode的地址如：A，B，C；

注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。

4、3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；

5、A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。

6、数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;

7、当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。

hdfs写入clickhouse java hdfs写入过程_上传数据_02

hdfs的文件写入过程（课上老师的总结）：
第一步：客户端发出请求，请求namneode需要上传数据
第二步：namenode检测客户端是或否有权限上传
第三步：客户端请求namenode第一个block块上传到哪里去
第四步：namenode找三个block块返回给客户端
第五步：客户端找datanode建立pipeline管道，主备上传数据，数据都是以packet包的形式通过管道上传到datanode上面去
第六步：datanode保存好了之后，给客户端一个ack确认机制，客户端准备上传下一个block块，直到所有的block块上传完成，关闭文件流

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。