hive 合并分区文件 hive自动合并小文件

转载

langrisser 2023-06-28 15:10:09

小文件合并

Hive 自动合并小文件可以减轻 NameNode 的压力。数据量大可以有更好的压缩效率。并且后续处理这些数据时，任务的启动速度会加快。
但是配置稍微复杂，没有一个能用所有引擎的参数。

如果一个 job 结束后，生成的文件的平均大小小于参数 hive.merge.smallfiles.avgsize 设定的值，则认为是小文件。如以下设置平均小文件的大小为 128M。

set hive.merge.smallfiles.avgsize=128000000;

希望的合并后的目标文件大小，如果此值小于 hive.merge.smallfiles.avgsize, 则此值为 hive.merge.smallfiles.avgsize。

set hive.merge.size.per.task=128000000;

此参数仅仅对 Tez 作业有作用。如果 Tez 作业的最终输出文件的平均大小小于 hive.merge.smallfiles.avgsize，则启用一个新的作业。

set hive.merge.tezfiles=true;

set hive.merge.mapfiles=true;

set hive.execution.engine=mr;
insert overwrite table  t2 select * from t1 where hash(c1) % 10 = 1;

set hive.merge.mapredfiles=true;

set hive.execution.engine=mr;
insert overwrite table  t2 select c1 from t1 where hash(c1) % 10 =1 group by c1 ;

综述
Hive 自动合并小文件可以减轻 NameNode 的压力。数据量大可以有更好的压缩效率。并且后续处理这些数据时，任务的启动速度会加快。
但是配置稍微复杂，没有一个能用所有引擎的参数。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯