计算hive小文件数 hive小文件处理方案

转载

编程梦想实现家 2023-08-02 12:03:45

文章标签 计算hive小文件数 hdfs hive 大数据客户端 文章分类 Hive 大数据

针对HDFS的小文件的治理方案可具体划分为以下几点：

（对于治理方式的备注：

1、对于拥有客户端权限的用户（后期会一一回收），可通过客户端执行相关命令完成治理工作，治理过程中相关数据的查看也可通过客户端自行完成；

2、对于无客户端权限的用户，可通过小文件合并工具进行文件的合并（目前仅针对hive的文本文件进行合并，其他格式暂不支持）；也可通过提交ITSM运维单进行数据的删除操作；

3、通过IDE离线任务进行压缩式合并、删除等相关治理操作。）

一、事前/事中治理：

1. HIVE任务小文件个数控制

设置以下参数：

set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=256000000; --合并后平均文件大小
set hive.merge.smallfiles.avgsize=256000000; --合并前平均文件大小低于此设置，并在小文件开关开启的时候，多跑一个MR合并小文件

2. SPARK任务小文件治理：

2.1 针对SparkSQL任务

添加暗示（Hint）： /*+ REPARTITION(分区数) */ ，例如：

create table tableName as select /*+ REPARTITION(40) */ age,count(*) from person where age between 10 and 20 group by age

insert into table tableName select /*+ REPARTITION(40) */ age,count(*) from person where age between 10 and 20 group by age

insert overwrite table tableName select /*+ REPARTITION(40) */ age,count(*) from person where age between 10 and 20 group by age

分区数：根据任务落地的数据量而定，要求每个落地文件大小在256M左右。

2.2 针对Dataset/RDD：

读文件后添加repartition操作。

针对hive SQL、spark SQL任务，可通过配置相关参数，从小文件生成的源头进行有效治理，但是此种方式会使任务运行时间变长（预计1.5倍，此数据仅供参考，不做任何官方依据），所以在配置参数时请各负责人根据实际需求和场景进行配置；由于直接配置参数会影响任务运行时长，各负责人可通过配置周期性定时任务进行治理操作（例如一周、半月或一月等执行一次），通过这种方式可避免对任务造成的影响。