hive 小文件产生的原因危害解决方案

原创

塞上江南o 2022-12-28 15:24:42 博主文章分类：Hive ©著作权

文章标签 hive hadoop 解决方案 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者塞上江南o的原创作品，请联系作者获取转载授权，否则将追究法律责任

hive outline

链接

hive 小文件产生的原因

动态分区插入数据的时候，会产生大量的小文件
数据源本身就包含有大量的小文件
做增量导入时（比如Sqoop数据导入，一些增量insert）

hive 小文件的危害

mr中每个小文件会启动一个MapTask进行计算处理，而每个MapTask都会对应启动一个JVM进程，造成资源严重浪费
占用hdfs的namenode的元数据内存

hive 小文件解决方案

分为了2个方向，一个是预防小文件的产生，另一个大量小文件已经产生，应该怎么解决

预防小文件的产生

当我们使用多个Reduce进行聚合计算时，我们并不清楚每个Reduce最终会生成的结果的数据大小，无法控制用几个Reduce来处理。hive中为我们提供了一个特殊的机制，可以自动的判断是否是小文件，如果是小文件可以自动将小文件进行合并

开启hive中自动合并小文件机制

-- 如果hive的程序，只有maptask，将MapTask产生的所有小文件进行合并,默认true
set hive.merge.mapfiles=true;
-- 如果hive的程序，有MapTask和ReduceTask,任务结束时合并小文件，默认false
set hive.merge.mapredfiles=true;
-- 每一个合并的文件的大小，默认256m
set hive.merge.size.per.task=268435456;
-- 当输出文件的平均大小小于该值时，启动一个独立的mr任务进行文件merge
set hive.merge.smallfiles.avgsize=16777216;

少使用动态分区，若必须使用时，要配合distribute by rand()随机分区来使用

例如

insert overwrite table dis partition (dt)
select * from ori
distribute by  rand();

原因：使用distribute by rand()后，可以控制在map端随机拆分数据给reduce端

小文件已经产生

类似sqoop增量导入，还有对表的查询增量导入，这些肯定是有小文件的，还有所以要定期对小文件合并，还有就是数据源本身就包含有大量的小文件的情况，可以使用 hadoop 的 archive 将小文件归档，也可以在读取小文件时，使用hive中也提供一种输入类CombineHiveInputFormat

har归档

#用来控制归档是否可用 
set hive.archive.enabled=true;
# Hive 在创建归档时是否可以设置父目录  
set hive.archive.har.parentdir.settable=true; 
#控制需要归档文件的大小 
set har.partfile.size=1099511627776;

使用以下命令进行归档：

ALTER TABLE A ARCHIVE PARTITION(dt='2021-05-07', hr='12');

对已归档的分区恢复为原文件：

ALTER TABLE A UNARCHIVE PARTITION(dt='2021-05-07', hr='12');

使用CombineHiveInputFormat类

--设置Hive中底层MapReduce读取数据的输入类：将所有文件合并为一个大文件作为输入
--默认的
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

文件接近128m，需要谨慎的地方：

虽然文件都接近128m的文件，但这个文件如果只有一个或者两个小字段，却有几千万的记录，此时再用一个mapTask去处理，肯定也比较耗时。这时，需要增加mapTask的并行度。要去hadoop的配置文件中去修改

mr-MapTask ReduceTask并行度决定机制 FileInputFormat切片源码解析

上一篇：hive 分桶表

下一篇：hive 查看文件系统命令

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive 小文件产生的原因 危害 解决方案

hive 小文件产生的原因 危害 解决方案

导航

hive outline

hive 小文件产生的原因

hive 小文件的危害

hive 小文件解决方案

预防小文件的产生

小文件已经产生

文件接近128m，需要谨慎的地方：

51CTO博客

hive 小文件产生的原因危害解决方案

hive 小文件产生的原因危害解决方案