原始Text格式的hive分区大小为119.2G。
压缩算法 | Text格式 | Parquet格式 | ORC | RCFile |
不压缩 | 119.2G | 54.1G | 20.0G | 98G |
Snappy压缩 | 30.2 G | 23.6 | 13.6 | 27.0G |
Gzip压缩 | 18.8 G | 14.1 G | 不支持 | 15.2G |
ZLIB压缩 | 不支持 | 不支持 | 10.1G | 不支持 |
注意:我们集群现在hive设置默认snappy压缩,而parquet的压缩格式设置为parquet.compression=snappy,以前setmapred.output.compression=org.apache.hadoop.io.compress.SnappyCodec不起作用。
Orc的压缩格式设置方法为:orc.compress=SNAPPY,默认为ZLIB.