hadoop中packet组成 hadoop1.0的组件

转载

clghxq 2023-07-14 20:45:38

Hadoop架构之1.0

本文主要讲述Hadoop中HDFS的架构，详细的MapReduce将放到后面写一篇专门的博客

hadoop中packet组成 hadoop1.0的组件_数据

两者通过段时间间隔的心跳来传递管理信息和数据信息，通过这种方式的信息传递，NameNode 可以获知每个 DataNode 保存的 Block 信息、DataNode 的健康状况、命令 DataNode 启动停止等（如果发现某个 DataNode 节点故障，NameNode 会将其负责的 block 在其他 DataNode 上进行备份）

负责接受用户的操作请求
元数据管理操作：
**fsimage:**内存命名空间元数据在外存的镜像文件
**editlog:**各种元数据操作的write-ahead-log文件，在体现到内存数据变化前首先会将操作记入editlog中，以防数据丢失。

hadoop中的元数据管理主要通过fsimage文件和editlog文件进行操作，Secondary定期从NameNode中拉去fsimage和editlog，并对两个文件进行合并，形成新的fsimage传回NameNode中。

hadoop中packet组成 hadoop1.0的组件_元数据_02

client 调用DistributeFileSystem对象的create方法，创建一个文件输出流对象FSDataOutputStream
通过DistributeFileSystem对象与集群的NameNode进行一次RPC的远程调用，在HDFS中创建一个文件条目（Entry），此时该条目没有任何的Block，NameNode会返回该数据每个快需要拷贝的DataNode地址信息；
通过FSDataOutputStream对象，开始向DataNode写入数据，数据首先被写入FSDataOutputStream对象内部的数据队列中，数据队列由DataStreamer使用，它通过选择合适的DataNode列表来存储副本，从而要去NameNode分配新的Block
DataStreamer将数据包以流式传输的方式传输到分配的第一个DataNode中，该数据流将数据包存储到第一个DataNode中，并将其转发到第二个DataNode中，接着第二个DataNode节点会将数据包转发到第三个DataNode节点。
DataNode确认数据传输完成，最后由第一个DataNode通知client数据写入完成
完成向文件写入数据，Client在文件输出流(FSDataOutputStream)对象上调用close方法，完成文件写入
调用DistributeFileSystem对象的complete方法，通知NameNode文件写入成功，NameNode会将相关接锅记录到editlog中