hive压缩输出数据 hive orc压缩率

转载

davisl 2023-07-12 12:47:55

文章标签 hive压缩输出数据 Hadoop Hive Linux 压缩率 文章分类 Hive 大数据

Hadoop Hive数据格式

文件格式

txt 面向行可分割并行计算非原查看简单编辑简单无压缩、占磁盘大、IO压力大

seq 面向行可分割并行计算原生二进制kv存储,支持行压缩和块压缩压缩生产环境,常用于mr的中间数据存储

rc 面向列可分割并行计算原生行列式文件、减少不必要的IO、提高IO效率自带压缩、省空间绝大多数场景下均可以使用先按行分割,再按列存储

orc 面向列可分割并行计算非原 rc的升级版,兼具了rcfile优点,进一步提高、读取存储效率、新数据类型支持每一项都不是最高学习生产使用

压缩格式

lzo : 可分割计算非原压缩解压缩速度,合理的压缩率压缩率比gzip低,非原生、需要native安装单个文件越大,lzo 优点越明显,压缩完成后>=200M 为宜

bz2: 可分割计算原生高压缩率超过gzip,不需native安装压缩/解压速率慢处理速度要求不高、压缩率要求高的情况

gzip : 不可分割计算原生压缩解压缩速度,原生/native都支持,使用方便不可切分,对cpu 要求较高压缩完成后<=128M 的文件适宜

snappy: 不可分割计算非原高压缩/ 解压速度,合理的压缩率压缩率比gzip低,非原生、需要native安装适合作为map->reduce或是 job 数据流中间的数据传输格式

解压缩命令只作常用命令参数介绍，其余参数需要时可在探索

lzo 需native安装lzo库

lzop -v test 压缩

lzop -d test.lzo 解压

bzip2 bunzip2

bzip2 test 压缩

bzip2 -d all.bz2 解压

bunzip2 all.bz2 解压

gzip gunzip

gzip test 压缩

gzip -d all.gz 解压

gunzip all.gz 解压

snappy

暂无命令行测试方法,使用hadoop安装snappy库直接设置hive表存储格式

zip unzip

zip all.zip *.jpg 压缩

unzip all.zip 解压

unzip all.zip -D /home/zx 解压到指定目录

compress uncompress

uncompress all.Z 解压

rar unrar --rar for linux native下载安装

unrar e all.rar 解压

ls weibo_zip/*.zip | xargs -n1 unzip -d ~/pro04 --批量解压缩

tar 以下全是关于tar命令的说明，可详细探索，

tar -xf all.tar

tar -czf all.tar.gz *.jpg 生成tar包，用gzip压缩

tar -cjf all.tar.bz2 *.jpg 生成tar包，用bz2压缩

tar -cZf all.tar.Z *.jpg 生成tar包，用compress压缩

tar -xzf all.tar.gz

tar -xjf all.tar.bz2

tar -xZf all.tar.Z

tar 参数

-c: 建立压缩档案

-x：解压

-t：查看内容

-r：向压缩归档文件末尾追加文件

-u：更新原压缩包中的文件

这五个是独立的命令，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。

-z：有gzip属性的

-j：有bz2属性的

-Z：有compress属性的

-v：显示所有过程

-O：将文件解开到标准输出

下面的参数-f是必须的

-f: 使用档案名字，切记，这个参数是最后一个参数，后面只能接档案名。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java birt好不好用 better java

下一篇：hive修改文件路径 hive 修改库名

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯