Hadoop为数据块存储具体怎么存 hadoop数据块丢失

转载

mob64ca141a683a 2024-03-31 08:46:18

文章标签 Hadoop为数据块存储具体怎么存 hadoop 客户端偏移量 文章分类 Hadoop 大数据

1、hadoop安全模式

NameNode存放的是元数据信息（包括块(block)在哪个位置，所有者，大小等等），元数据信息放到内存中，而内存一断电就会丢失数据，于是产生了映像文件（fsimage）和edits（编辑日志），fsimage会定期合并edits，这时候edits被fsimage合并后，再重新创建一个edits继续写用户的操作日志，避免edits过大，再被fsimage合并时执行时间过长。

当集群重启的时候，先读取fsimage的数据，再执行edits的操作，此时处于安全模式，都是只读的，增删重命名都不行，此时namenode收集datanode的心跳（3s一次，10分钟收不到默认dn挂掉），心跳向namenode汇报我起来了有那些块等，当数据块达到最小副本，再过一段时间，安全模式结束。系统中块位置不由namenode维护，由datanode向namenode发送心跳，如果有没起来的datanode，块会被复制到其他节点。

为什么不把位置信息直接存放到fsimage中？如果集群中某台datanode没起来，那就完蛋了

如果数据量过大，重启集群30分钟+退出安全模式。

2、hadoop为什么不支持修改

hadoop由块存储，记录了块，块里记录了对于整个文件的偏移量offset，如果对某一个块修改了导致偏移量的改变（例如超出了128m，数据后移），那么这个块后面的所有偏移量都会错乱，如果更改元数据信息弊大于利，hadoop就去掉了修改。

3、hadoop读写

客户端向nn申请写文件，申请第一个块（128m），nn找到3台机器（按照和客户端距离排序，减少网络io），用户和距离他最近的一台机器进行写，这128m会分成很多小块4k或者多少，向第一台dn传输，然后第一台dn再向第二台dn传输，第二台dn再向第三台传输，管道传输，缩短时间，也可以称之为并行，假如传输过程中一台dn挂掉，继续传输到完成，然后nn收到dn的心跳，有一台挂掉，找一台dn复制数据到另一台dn，最后nn告诉客户端上传成功。

块在存到磁盘会进行md5加密，在读取的时候再加密一次，对比两次的字符串，不同即为被破坏

客户端读取的时候，距离优先，可以随机读取哪个块，偏移量多少