Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件

转载

mob6454cc78d412 2023-06-30 09:56:54

文章标签 hive Arc Hadoop 文章分类 Hadoop 大数据

1.背景

HDFS并不擅长存储小文件，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会吃掉NameNode节点的大量内存。如下所示，模拟小文件场景：

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_Hadoop

2.Archive概述

Hadoop Archives可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件。

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_Arc_02

3.创建Archive

Usage: hadoop archive -archiveName name -p <parent> <src>* <dest>
           -archiveName 指要创建的存档的名称。扩展名应该是*.har。 
           -p 指定文件档案文件src的相对路径。
比如：-p /foo/bar a/b/c e/f/g，这里的/foo/bar是a/b/c与e/f/g的父路径，所以完整路径为/foo/bar/a/b/c与/foo/bar/e/f/g。

示例：

案例：存档一个目录/smallfile下的所有文件:
hadoop archive -archiveName test.har -p /smallfile /outputdir
这样就会在/outputdir目录下创建一个名为test.har的存档文件。
注意：Archive归档是通过MapReduce程序完成的，需要启动YARN集群。

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_hive_03

4.查看 Archive归档之后的样子

hadoop fs -ls /outputdir/test.har
    这里可以看到har文件包括：两个索引文件，多个part文件（本例只有一个）以及一个标识成功与否的文件。part文件是多个原文件的集合， 通过index文件可以去找到原文件。
    例如上述的三个小文件1.txt 2.txt 3.txt内容分别为1，2，3。进行archive操作之后，三个小文件就归档到test.har里的part-0一个文件里。

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_Arc_04

5.查看Archive归档之前的样子

在查看har文件的时候，如果没有指定访问协议，默认使用的就是hdfs://，此时所能看到的就是归档之后的样子。
此外，Archive还提供了自己的har uri访问协议。如果用har uri去访问的话，索引、标识等文件就会隐藏起来，只显示创建档案之前的原文件：
Hadoop Archives的URI是：
har://scheme-hostname:port/archivepath/fileinarchive   
scheme-hostname格式为hdfs-域名:端口

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_Arc_05

6.提取Archive

按顺序解压存档（串行）：
hadoop fs -cp har:///outputdir/test.har/* /smallfile1
要并行解压存档，请使用DistCp,对应大的归档文件可以提高效率：
hadoop distcp har:///outputdir/test.har/* /smallfile2

Hadoop处理流程中,首先将大文件按什么大小处理为数据块 hadoop archive 处理小文件_hive_06

7.Archive使用注意事项

1. Hadoop archive是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。archive的扩展名是*.har；
2. 创建archives本质是运行一个Map/Reduce任务，所以应该在Hadoop集群上运行创建档案的命令； 
3. 创建archive文件要消耗和原文件一样多的硬盘空间；
4. archive文件不支持压缩，尽管archive文件看起来像已经被压缩过；
5. archive文件一旦创建就无法改变，要修改的话，需要创建新的archive文件。事实上，一般不会再对存档后的文件进行修改，因为它们是定期存档的，比如每周或每日；
6. 当创建archive时，源文件不会被更改或删除；

8.其他解决方法

# 使用Sequence File合并小文件
可以编写一个程序将所有的小文件写入到一个Sequence File中，即将文件名作为key，文件内容作为value序列化到Sequence File大文件中。

"一劳永逸" 的话，有是有的，而 "一劳永逸" 的事却极少

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 数字全排列组合 python中排列组合

下一篇：k8s pod容器怎么连接外部mysql k8s node pod container

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯