hdfs删除数据释放磁盘 hdfs 数据清理

关注架构领航博主

hdfs删除数据释放磁盘 hdfs 数据清理

转载

架构领航博主 2024-03-25 16:13:07

文章标签 hdfs删除数据释放磁盘 hadoop 数据 hdfs 文章分类 架构后端开发

　　　　　　　　　　　　　　　　　Hadoop基础-HDFS数据清理过程之校验过程代码分析

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

版权声明：原创作品，谢绝转载！否则将追究法律责任。

　　

　　想称为一名高级大数据开发工程师，不但需要了解hadoop内部的运行机制，还需要掌握hadoop在写入过程中的报文分析。当然代码的调试步骤是一个开发必须得会的技能！想要掌握这三个技能，我们就可以拿HDFS写入过程来练练手，了解一下平时就几行的代码在它的内部是如何帮我们实现数据传输的。

一.Idea代码调试简介

1>.编写测试代码

1 /*
 2 @author :yinzhengjie
/
 6 package cn.org.yinzhengjie.hdfs;
 7 
 8 import org.apache.hadoop.conf.Configuration;
 9 import org.apache.hadoop.fs.FSDataOutputStream;
10 import org.apache.hadoop.fs.FileSystem;
11 import org.apache.hadoop.fs.Path;
12 import org.apache.hadoop.io.IOUtils;
13 
14 import java.io.FileInputStream;
15 import java.io.IOException;
16 
17 public class WriterToHdfs {
18     public static void main(String[] args) throws IOException {
19         //设置访问hdfs的用户名为“yinzhengjie”
20         System.setProperty("HADOOP_USER_NAME","yinzhengjie");
21         Configuration conf = new Configuration();
22         FileSystem fs = FileSystem.get(conf);
23         //定义需要在hdfs中写入的路径,别忘记把core-site.xml文件放在resources目录下哟！并fs.defaultFS的值设置为"hdfs://s101:8020"
24         Path p = new Path("/yinzhengjie.sql");
25         //通过fs对象create方法创建一个输出流，第一个参数是hdfs路径，第二个参数表示当hdfs中存在时是否覆盖
26         FSDataOutputStream fos = fs.create(p,true);
27         FileInputStream fis = new FileInputStream("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\yinzhengjie.sql");
28         //通过hadoop提供的IOUtils工具类对拷数据
29         IOUtils.copyBytes(fis,fos,1024);
30         fis.close();
31         fos.close();
32     }
33 }

2>.进入调试模式

hdfs删除数据释放磁盘 hdfs 数据清理_数据

3>.查看源码执行过程，流程控制按键介绍:

4>.断点列表管理

二.查看 “FileSystem fs = FileSystem.get(conf)” 的由来

1>.查看conf的返回值

2>.进入“FileSystem.get”方法（我们需要在return那一行右击就可以弹出图中的对话框，其实不用刻意去选中getDefaultUri）

hdfs删除数据释放磁盘 hdfs 数据清理_数据_05

3>.查看“getDefaultUri(conf)”返回的参数

4>.通过“CACHE.get(uri, conf)”返回文件系统

hdfs删除数据释放磁盘 hdfs 数据清理_hdfs_07

5>.返回文件系统

三.查看“fs.create(p, true)”创建流的详细过程

1>.单步进入“fs.create(p, true)”创建流

hdfs删除数据释放磁盘 hdfs 数据清理_hadoop_09

2>.经过断电跟踪，发现最后返回的是HDFSOutputStream，也就是创建流，此时还没有真正的写入数据

3>.在写入过程中进入到write1方法

hdfs删除数据释放磁盘 hdfs 数据清理_hadoop_11

4>.再进入到FlushBuffer，目的是清理chunk

hdfs删除数据释放磁盘 hdfs 数据清理_hdfs删除数据释放磁盘_12

5>.验证chunk大小为512字节

hdfs删除数据释放磁盘 hdfs 数据清理_hdfs删除数据释放磁盘_13

6>.我们通过打断点的方式查出来chunk的大小为512字节，这个大小意思的是每个512字节就会进行一次校验。

7>.使用“sum.calculateChunkedSums”来计算校验和，使用循环冗余校验（CRC32C），大小4个字节

四.知识点小结

1>.chunk数据块

　　第一：通过断点调试估计大家也知道chunk的做作用了，它就是数据块，512字节，在上面调试代码中看到的"sum.getBytesChecksum()"的大小就是512，它的意思就是每个512字节进行依次校验；

　　第二：上图调试中的"sum.caculateChunkedSums"是来计算校验和的，使用循环冗余校验(CRC32C），占用4个字节；

2>.data数据

　　数据包括两个方面，估计你也猜到了，没错，就是真实数据和校验数据。校验数据大小 = 7字节头 + 检验和个数(每512字节进行依次校验) x 4

　　 不管你信不信，反转我是信了，我们举个例子，如下：

　　比如上面的“blk_1073741826”大小是700字节，将其除以512字节，商为2（如果有余数的话商要加1）。那么校验大小就应该是"7 + 4 x 2 = 15",即校验和为15字节，

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：es 多个指定字段精确查询 es搜索多个字段

下一篇：shell 通过DES进行字符串加密 shell $字符

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册