hive表压缩及存储格式 hive lzo压缩

转载

mob6454cc6a8ab0 2023-06-12 20:07:03

1.压缩

在Hadoop中MR一共支持四种编码分别是:default,gzip,bzip2,lzo和snappy

下面是这几种压缩格式的说明:

下面是各个压缩算法之间的比较（目前仅比较了gzip,bzip2,lzo三种格式）

我们不难得出结论:

压缩后文件大小:lzo>gzip>bzip2
压缩速度:lzo>gzip>bzip2
解压速度:lzo>gzip>bzip2

所以如果追求节省存储空间可以选择bzip2，但是如果追求速度的话那就选择lzo，当然介于两者之间的gzip也是很好的选择，压缩格式本就没有好坏之分，一切由实际场景的业务来决定。

要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer输出	SequenceFile输出使用的压缩类型：NONE和BLOCK