Hadoop支持的压缩算法对比 hadoop压缩命令

转载

编程小天匠 2024-03-05 23:43:15

文章标签 Hadoop支持的压缩算法对比 fs hadoop 压缩 hadoop jar hdfs 文章分类 Hadoop 大数据

image.png

整体写 mapreduce 有时候也会陷入一种思维定势，以为 hadoop 只能做mapreduce，其实当然很可笑，hadoop 还是可以做很多的，hadoop 的一些shell 命令都提供了 java api 通过编程实现对hdfs文件系统的操作。而且写成的文件打成jar包，可以像类似 mapreduce 程序jar 一样被hadoop 命令执行。

例如

hadoop jar hdfs-compress.jar com.company.center.compress /input /output

集群90T 但是眼瞅着就要用完了，头头拒绝扩容，还不允许删除数据，就好像你家的房子不允许扩建，但是你家东西越来越多，眼看就快撑不下了，还不能扔家具，只能不断的压缩所有能压缩的东西腾出地方来。

百度的老大给了一个他用shell 写的压缩脚本，其实还是使用hadoop streaming 跑

mapreduce ，通过设置输出文件为压缩，其他的什么都没有做，这种做法只限于在同一目录下为同一类型的文件，而且文件命名没有要求的文件，因为要这样通过mapreduce跑，如果一个目录下有多种不同文件，而且文件命名是有特殊用意和格式，那么MR则会把同一目录下的各种文件混在一起，有点类似搅拌在一起了，而且输入文件为 part-n类型，完全打乱了文件原来的命名，所以在老大得意的给我演示了他发明的脚本是多么优异，还是被我无情的丢弃掉了。

在花了接近三天的调研和测试，终于跑通了 hdfs 在线压缩文件的操作，说实话不算太难，主要就是转变思维就是我使用 hadoop jar 照耀可以跑非mapReduce程序来操作hdfs，甚至可以跑普通的 java 程序，其实 hadoop jar 是java jar 命令行形式的hadoop 定制版。

文件有咩有压缩成功我们是如何检验的呢，当然两点文件确实小了很多，我们使用gzip，压损率为4.2---10倍以上，不同文件的压缩率是不一样的。二压缩后的文件也要保证了数据完整和可读性，通过 wc -l 比对行数，可抽查部分末尾十行的数据来确认文件的完整性，gzip格式需要通过 hadoop fs -text 来读取，使用hadoop fs -cat 则会乱码。

代码我是使用scala 来写的，我在使用scala 跑mapReduce时，服务器和提交任务的机器都没有安装scala 编译环境，完全是可以的，可能是代码里咩有什么太深的内容，但是仅仅操作hdfs 的就不行了，不得不在提交任务的机器上【并没有在NameNode上操作】安装scala 编译环境 sdk，才解决了【Exception in thread “main” java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Lja 】

还有一个就是打包时如果指定了主类 MAINCLASS,那么在使用hadoop jar的时候就不用指明主类，直接 hadoop jar jar包名 hdfs输入路径 hdfs 输出路径。

如果打包时没有指定主类，那么需要在执行命令时指定主类

hadoop jar jar包名含package路径.主类名 hdfs输入路径 hdfs 输出路径，

我们可以通过命令的错误输出来确认到底选择哪一种方式

这里可以给大家看一些压缩的效果图

image.png

大家git clone 下来后运行中会报一个空指针异常，这个主要是写入文件的key其实是null，为了不污染源文件不得不这样

image.png

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。