压缩格式	工具	算法	扩展名	多文件	可分割性
DEFLATE	无	DEFLATE	.deflate	不	不
GZIP	gzip	DEFLATE	.gzp	不	不
ZIP	zip	DEFLATE	.zip	是	是，在文件范围内
BZIP2	bzip2	BZIP2	.bz2	不	是
LZO	lzop	LZO	.lzo	不	是

b. 常见的有：DEFLATE（默认）、gzip、bzip以及Snappy

c. 性能比较（摘自ABM）：

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO-bset	8.3GB	2GB	4MB/s	60.6MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

因此我们可以得出：

Bzip2压缩效果明显是最好的，但是bzip2压缩速度慢，可分割。
Gzip压缩效果不如Bzip2，但是压缩解压速度快，不支持分割。
LZO压缩效果不如Bzip2和Gzip，但是压缩解压速度最快！并且支持分割！

所有的压缩算法都显示出一种时间空间的权衡，更快的压缩和解压速度通常会耗费更多的空间。在选择使用哪种压缩格式时，我们应该根据自身的业务需求来选择。

下图是在本地压缩与通过流将压缩结果上传到BI的时间对比：

Hadoop压缩机制及实操_apache

0x02 代码实操

1. 原理

a. 通过反射的方式，对应的类如下

gzip => org.apache.hadoop.io.compress.GzipCodec
   bzip => org.apache.hadoop.io.compress.BZipCodec
   snappy => org.apache.hadoop.io.compress.SnappyCodec
   DEFLATE => org.apache.hadoop.io.compress.DefaultCodec

b. 在选择压缩方式时，替换掉相应的类即可。

2. 代码及校验

a. 完整代码

package com.shaonaiyi.hadoop.filetype.compress;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;

import java.io.*;

/**
 * @Author shaonaiyi@163.com
 * @Date 2019/12/17 10:28
 * @Description Hadoop压缩机制
 */
public class CompressTest {

    public static void main(String[] args) throws IOException, ClassNotFoundException {

        //压缩
        compress("blockByte.txt", "org.apache.hadoop.io.compress.GzipCodec");
        //解压
//        decompress(new File("blockByte.txt.gz"));

    }

    private static File compress(String fileName, String compressClassName) throws ClassNotFoundException, IOException {
        Class<?> codecClass = Class.forName(compressClassName);
        Configuration configuration = new Configuration();
        CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, configuration);

        File fileOut = new File(fileName + codec.getDefaultExtension());
        fileOut.delete();

        OutputStream out = new FileOutputStream(fileOut);

        CompressionOutputStream cout = codec.createOutputStream(out);

        File fileIn = new File(fileName);
        InputStream in = new FileInputStream(fileIn);
        IOUtils.copyBytes(in, cout, 4096, false);

        in.close();
        cout.close();

        return fileOut;
    }

    private static void decompress(File file) throws IOException {
        Configuration configuration = new Configuration();
        CompressionCodecFactory factory = new CompressionCodecFactory(configuration);

        CompressionCodec codec = factory.getCodec(new Path(file.getName()));

        if (codec == null) {
            System.out.println("找不到文件->" + file);
            return;
        }

        File fileOut = new File(file.getName() + "-dec.txt");
        InputStream in = codec.createInputStream(new FileInputStream(file));

        OutputStream outputStream = new FileOutputStream(fileOut);
        IOUtils.copyBytes(in, outputStream, 4096, false);

        in.close();
        outputStream.close();
    }

}

b. 压缩后，发现项目路径下多了一个blockByte.txt.gz文件

Hadoop压缩机制及实操_hadoop_02

c. 解压后，发现项目路径下多了一个blockByte.txt.gz-dec.txt文件

Hadoop压缩机制及实操_apache_03

0xFF 总结

压缩机制是非常有必要的，必须要懂。
在MapReduce代码里怎么使用呢？设置上即可，如GzipCodec。

FileOutputFormat.setCompressOutput(job, true);
  FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

Hadoop压缩机制及实操_3g_04

3. 参考文章：Hadoop 压缩实现分析

作者简介：邵奈一

全栈工程师、市场洞察者、专栏编辑

| 公众号 | 微信 | 微博 | 简书 |

福利：

邵奈一的技术博客导航

邵奈一原创不易，如转载请标明出处。

上一篇：Hadoop支持的文件格式之Avro

下一篇：“Usage of API documented as @since 1.8+”报错的解决办法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯