Hadoop（十二）—— Hadoop压缩

关注程序员X小鹿

文章目录

文章目录
1. Hadoop压缩概述
2. 压缩方式
2.1 Bzip2压缩
2.2 Gzip压缩
2.3 Lzo压缩
2.4 Snappy压缩
3. MR支持的压缩编码
4. 压缩率与压缩速度对比
5. 压缩参数配置

Hadoop（十二）—— Hadoop压缩

原创

程序员X小鹿 2024-04-22 11:03:06 博主文章分类：大数据 ©著作权

文章标签 hadoop hadoop压缩 apache Hadoop 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者程序员X小鹿的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

1. Hadoop压缩概述
2. 压缩方式

2.1 Bzip2压缩
2.2 Gzip压缩
2.3 Lzo压缩
2.4 Snappy压缩

3. MR支持的压缩编码
4. 压缩率与压缩速度对比
5. 压缩参数配置

1. Hadoop压缩概述

数据压缩对于提高磁盘空间效率、最小化磁盘I/O和网络传输非常有帮助。
MapReduce的一种优化策略：通过压缩编码对Mapper或者Reducer的输出进行压缩，以减少磁盘IO，提高MR程序运行速度（但相应增加了CPU运算负担）。
尽管压缩与解压操作的CPU开销不高，其性能的提升和资源的节省并非没有代价。压缩特性运用得当能提高性能，但运用不当也可能降低性能。
基本原则
运算密集型的job，少用压缩；
I/O 密集型的job，多用压缩。

2. 压缩方式

2.1 Bzip2压缩

优点
支持切分；具有很高的压缩率，比gzip压缩率都高；Hadoop本身支持，但不支持native；在Linux系统下自带bzip2命令，使用方便。
缺点
压缩/解压速度慢；不支持native（Java和C互操作的API接口）。
应用场景
适合对速度要求不高，但需要较高的压缩率的时候，可以作为MapReduce作业的输出格式；或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；或者对单个很大的文本文件想压缩减少存储空间，同时又需要支持split，而且兼容之前的应用程序（即应用程序不需要修改）的情况。

2.2 Gzip压缩

优点
压缩率比较高，而且压缩/解压速度也比较快；Hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；大部分Linux系统都自带gzip命令，使用方便。
缺点
不支持split。
应用场景
当每个文件压缩之后在140M以内的（1个块大小内），都可以考虑用gzip压缩格式。例如说一天或者一个小时的日志压缩成一个gzip文件，运行MapReduce程序的时候通过多个gzip文件达到并发。hive程序，streaming程序，和java写的MapReduce程序完全和文本处理一样，压缩之后原来的程序不需要做任何修改。

2.3 Lzo压缩

优点
压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；可以在Linux系统下安装lzop命令，使用方便。
缺点
压缩率比gzip要低一些；Hadoop本身不支持，需要安装；在应用中对lzo格式的文件需要做一些特殊处理（为了支持split需要建索引，还需要指定inputformat为lzo格式）。
应用场景
一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越越明显。

2.4 Snappy压缩

优点
高速压缩速度和合理的压缩率。
缺点
不支持split；压缩率比gzip要低；Hadoop本身不支持，需要安装；
应用场景
当MapReduce作业的Map输出的数据比较大的时候，作为Map到Reduce的中间数据的压缩格式；或者作为一个MapReduce作业的输出和另外一个MapReduce作业的输入。

3. MR支持的压缩编码

压缩格式	Hadoop自带	工具	算法	文件扩展名	是否可切分	换成压缩格式后，原来的程序是否需要修改
DEFAULT	是，直接使用	无	DEFAULT	.default	否	和文本处理一样，不需要修改
bzip2	是，直接使用	bzip2	bzip2	.bz2	是	和文本处理一样，不需要修改
Gzip	是，直接使用	gzip	DEFAULT	.gz	否	和文本处理一样，不需要修改
LZO	否（低版本），需要安装	lzop	LZO	.lzo	是	需要建索引，还需要指定输入格式
Snappy	否（低版本），需要安装	无	Snappy	.snappy	否	和文本处理一样，不需要修改

注：支持切分的，对map阶段来说就可以并行操作。

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
gzip	org.apache.hadoop.io.compress.GzipCodec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

4. 压缩率与压缩速度对比

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

5. 压缩参数配置

要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：

参数	默认值	阶段	建议
io.compression.codecs（在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或Snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer输出	SequenceFile输出使用的压缩类型：NONE和BLOCK

赞
收藏
评论
分享
举报

上一篇：Hadoop（十一）—— Hadoop企业优化

下一篇：Hadoop（八）—— 通过Java API操作HDFS

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册