hdfs远程hbase hdfs client

关注墨守成规de网工

文章目录

HDFS-NameNode-DataNode之间的通信方式
HDFS读操作
HDFS写操作

hdfs远程hbase hdfs client

转载

墨守成规de网工 2023-07-12 10:10:58

文章标签 hdfs远程hbase HDFS 数据时间戳 文章分类 Hbase 数据库

接下来学习了HDFS读写流程，这里记录一下。

HDFS-NameNode-DataNode之间的通信方式

hdfs远程hbase hdfs client_数据

在了解HDFS读写操作前，了解到HDFS Client是运行在JVM中，它也可以叫做Client Node，这个Client可能在DataNode上，他们之间相互通信方式如上图。

（1）HDFS Client和NameNode之间是RPC通信

（2）NameNode和DataNode之间是RPC通信

（3）HDFS Client和DataNode之间是普通Socket通信

HDFS读操作

Read概括：

client端如果要读取某一个文件，由于这个文件被拆分成block后存在于不同的DataNode上面，刚开始它是不知道在哪里读取的，因此需要求助于NameNode告诉它这个文件分为几个block，都存在于哪些地方。NameNode返回结果给client端后，client端会根据得到的block块存储信息，对DataNode中的数据进行读取。

hdfs远程hbase hdfs client_hdfs远程hbase_02

Read细节：

1 运行在JVM虚拟机中的HDFS Client，会调用Hadoop下的DistributedFileSystem的open方法返回FSDataInputStream对象。

hdfs远程hbase hdfs client_hdfs远程hbase_03

2 在返回FSDataInputStream对象时，会通过client端ClientProtocol接口getBlockLocations方法RPC调用NameNode的同名方法返回block的信息到对象中。可以看出ClientProtocol的作用就是用于用户使用DistributedFileSystem类来建立和NameNode的RPC通信，并可以使用方法来操作namespace的文件目录。

hdfs远程hbase hdfs client_时间戳_04

hdfs远程hbase hdfs client_hdfs远程hbase_05

hdfs远程hbase hdfs client_时间戳_06

3 查看getBlockLocations方法，其调用后将返回给JVM一个LocatedBlocks类型的对象，它包含块的DataNode位置信息以及block的长度信息，并会根据所在的DataNode和client的距离进行排序，最近的会排在前面。

4 5 6 然后Client端调用FSDataInputStream对象的read方法，开始读取最近一个DataNode上block的数据（如果client在DataNode01并且上面也有它要读取的block那就是先读DataNode01上的数据了），并会对返回的数据检查checksum（使用CRC32算法），即检查Datanode上block的checksum和读取到的block数据的checksum，如果两者一致就会结束本次block的读取，接着读取剩余的block。

7 如果上面步骤检查checksum发现有问题或者连接发生中断，就会从包含这个block副本的临近DataNode上读取，并且也需要检查checksum。由于HDFS有心跳机制，NameNode会对读取失败的DataNode进行记录，下次将不再从它身上读取。

8 读取block完成后，调用FSDataInputStream的close方法，结束本次文件读取。

HDFS写操作

Write概括：

client端如果需要向HDFS写一个文件，比如一个300M的文件需要写入HDFS，client是不知道要怎么拆分，存到哪些DataNode上的，因此需要求助于NameNode，NameNode会根据各个数据节点上存储的情况，以及当前文件的大小，计算出一份合理的存储方案，告诉client应该拆分为几个block，分别存在哪几个DataNode。然后client会首先找到一个最近的DataNode，写入一个block，然后这个block会平移复制到其他分配的DataNode，完成一个block块的写入，剩余的block也是进行同样的操作。

hdfs远程hbase hdfs client_hdfs远程hbase_07

Write细节：

1 运行在JVM虚拟机中的HDFS Client，会调用Hadoop下的DistributedFileSystem的create方法返回DFSOutputStream对象，返回对象的过程中会建立和NameNode的连接，使用DFSClient。

hdfs远程hbase hdfs client_hdfs远程hbase_08

2 3 在返回DFSOutputStream对象之前，使用client上ClientProtocal的create方法调用NameNode上NameNodeRpcServer的create方法，在HDFS上建立新文件，在创建时需要确定路径（绝对路径）、确定要写入的文件是否存在、客户端是否有权限创建文件、建立的副本数等信息。

hdfs远程hbase hdfs client_hdfs远程hbase_09

hdfs远程hbase hdfs client_时间戳_10

在HDFS上创建完空文件后，会将操作记录在NameNode的editlog中，并给client返回FSDataOutputStream，它是封装了DFSOutputStream的对象。

hdfs远程hbase hdfs client_hdfs远程hbase_11

4 client端会调用DFSOutputStream的write方法开始写数据（没找到write方法？），在写数据前调用ClientProtocol的addBlock方法，返回LocatedBlock对象，它包含block的详细信息，如在哪个DataNode和block长度信息，知道了位置信息就会知道了数据要写入的路径并建立数据流管道pipeline。

hdfs远程hbase hdfs client_HDFS_12

另外这个方法执行后也会向NameNode报告文件创建的时间戳。

5 在确定了要写入的block和DataNode位置后就可以开始写数据了，可以参考下图。

hdfs远程hbase hdfs client_HDFS_13

5.1 调用DFSOutputStream的writechunk方法写入数据到一个校验块chunk中，包含512byte的数据和4byte的checksum

5.2 校验块chunk会添加到更大单位的packate中，大小为64KiB

5.3 一个个的packate会添加到一个dataqueue队列中等待写入，可以看到它是一个链表结构，适合插入和删除数据。还会复制一份镜像队列ackQueue，这个队列是验证复制用的。

hdfs远程hbase hdfs client_数据_14

5.4 一个一个的packate会向pipeline中一次写数据，比如从DataNode01→DataNode02→DataNode03依次写入，并逆向返回ack确认包，如果返回SUCESS，则ackqueue中的镜像packate就会删除，否则会从ackqueue取出对应packate到dataqueue尝试重新发送。

5.5 当block中所有的数据按照上面流程写完后，会发送一个空的packate代表写完了，关闭当前block的pipeline，其他的block写入流程类似。

6 写完所有的block后，需要验证client端block的checksum和写入到DataNode的checksum是否一致。如果某个block的checksum检查不一致，就会执行更新block时间戳、删除block、更新pineline、申请新的DataNode并复制block、更新namenode元数据等操作，如果检查没问题就继续执行下面第7和第8步的操作。

6.1 输出流DFSOutputStream中ackqueue所有的数据会重新加入dataqueue

6.2 在故障期间，输出流调用ClientProtocol的upateBlockForPipeLine方法，为block申请新的时间戳并保存在NameNode，就算DataNode上的block数据OK了，DataNode上block的时间戳和NameNode中保存的不一致就删除这个block。

hdfs远程hbase hdfs client_数据_15

6.3 输出流调用ClientProtocol的getAdditionalDataNode方法，让NameNode分配新的DataNode到pipeline中，并使用上面新的时间戳给这个block。并且这个方法也会返回LocatedBlock，即知道了要重新写入的block详细信息。

hdfs远程hbase hdfs client_HDFS_16

6.4 有了新的DateNode，也知道要写入的block信息，接下来client就调用DataTransferProtocol通过pipeline中的一个正常DateNode复制这个block信息到新的DataNode，使用transferBlock方法？

hdfs远程hbase hdfs client_HDFS_17

6.5 复制完成后并重新pipeline，输出流调用ClientProtocol的updatePipeline方法，更新NameNode中的元数据。

hdfs远程hbase hdfs client_数据_18

7 如果一致就调用DFSOutputStream的close方法关闭流

9 client端使用ClientProtocol的complete方法RPC调用NameNode的complete方法，完成本次写操作

以上为HDFS读写流程的分析，后续继续完善。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python版的数据结构 python数据结构设计

下一篇：chrome浏览器不在ios分类里谷歌浏览器不安装在c盘

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册