apache hadoop 修改默认小文件快参数 hadoop修改文件名命令

转载

mob64ca14068b0b 2024-05-31 10:06:49

文章标签 大数据 java shell hadoop hive 文章分类 Hadoop 大数据

概述

所有的Hadoop命令都通过bin/hadoop脚本调用。在没有任何参数的情况下，运行Hadoop脚本将打印该命令描述。

[hduser@hadoop3 hadoop-2.4.1]$ bin/hadoop
Usage: hadoop [--config confdir] COMMAND
       where COMMAND is one of:
  fs                   run a generic filesystem user client
  version              print the version
  jar <jar>            run a jar file
  checknative [-a|-h]  check native hadoop and compression libraries availability
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  classpath            prints the class path needed to get the
                       Hadoop jar and the required libraries
  daemonlog            get/set the log level for each daemon
 or
  CLASSNAME            run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

字段	描述
`--config confdir`	配置文件目录，默认是：${HADOOP_HOME}/conf。
`--loglevel loglevel`	日志级别，有效的日志级别有：FATAL, ERROR, WARN, INFO, DEBUG, and TRACE. 默认是INFO。

通用选项

通用项	Description
`-archives <comma separated list of archives>`	用逗号分隔计算中未归档的文件。仅仅针对JOB。
`-conf <configuration file>`	制定应用程序的配置文件Specify an application configuration file.
`-D <property>=<value>`	使用给定的属性值。
`-files <comma separated list of files>`	用逗号分隔的文件,拷贝到Map reduce机器，仅仅针对JOB
`-jt <local> or <resourcemanager:port>`	指定一个ResourceManager. 仅仅针对JOB。
`-libjars <comma seperated list of jars>`	将用逗号分隔的jar路径包含到classpath中去，仅仅针对JOB。

执行所有命令都是通过hadoop shell的命令的，可以分为用户命令和管理员命令。

用户命令

用于Hadoop集群用户命令。

Archive

Hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式，它能够将多个小文件打包成一个后缀为.har文件，这样减少Namenode内存使用的同时（减少Namenode内存空间可以参考：Hdfs Federation），仍然允许对文件进行透明的访问。

apache hadoop 修改默认小文件快参数 hadoop修改文件名命令_shell

我们要知道创建Archive文件要消耗和原文件一样多的硬盘空间，并且Archive文件不支持压缩，一旦Archive文件创建了就无法改变。如果要修改Archive文件的内容，就需要重新创建Archive文件。

Hadoop Archive目录包含元数据文件（_index 和 _masterindex）和数据文件（part-*），这个_index文件包含了所有文件的名称和他对应part文件的位置。

（1）怎么使用Archive

使用：

hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>

-archiveName 你需要创建的archive的文件名，例如：foo.har. 名字应该用*.har后缀。<parent>是指定Archive文件的相对路径，例如：

-p /foo/bar a/b/c e/f/g

这里 /foo/bar是a/b/c和e/f/g两个相对路径的父路径. 注意：Archive是MapReduce创建了。所以要在map reduce集群环境下运行它。

-r 指示所需的复制因子；如果该可选参数未指定，将使用10的复制因子。

例如：将/flume /data目录下的文件归档到/flume文件夹下的test.har文件：

hadoop archive -archiveName test.har -p /flume/ data/ /flume/

例如：使用通配符，将/user/fish/2015 10，11,12月归档到/user/test33文件夹下：

hadoop archive -archiveName combine.har -p /user/fish2015 1[0-2] /user/test33

例如：不指定归档目录，直接归档parent目录：/user/fish/目录到/user/test33文件夹下：

hadoop archive -archiveName combine.har -p /user/fish /user/test33

例如：归档多个目录，归档/user/fish/目录下的111,222,333目录到/user/test33文件夹下：

hadoop archive -archiveName combine.har -p /user/fish/ 111 222 333 /user/test33

（2）怎么查找Archive文件

[root@hadoopcluster78 bin]# ./hdfs dfs -ls /flume/test.har
Found 4 items
-rw-r--r-- 3 root supergroup 0 2015-09-22 10:43 /flume/test.har/_SUCCESS
-rw-r--r-- 5 root supergroup 541 2015-09-22 10:43 /flume/test.har/_index
-rw-r--r-- 5 root supergroup 23 2015-09-22 10:43 /flume/test.har/_masterindex
-rw-r--r-- 3 root supergroup 3609 2015-09-22 10:43 /flume/test.har/part-0
[root@hadoopcluster78 bin]# ./hdfs dfs -ls har:flume/test.har/data
Found 4 items
-rw-r--r-- 3 root supergroup 779 2015-09-21 19:53 har:///flume/test.har/data/events-.1442836401377
-rw-r--r-- 3 root supergroup 1155 2015-09-21 19:54 har:///flume/test.har/data/events-.1442836453077
-rw-r--r-- 3 root supergroup 520 2015-09-21 19:55 har:///flume/test.har/data/events-.1442836494183
-rw-r--r-- 3 root supergroup 1155 2015-09-21 20:08 har:///flume/test.har/data/events-.1442837275306

（3）怎样解压Archive文件

串行解压：

[root@hadoopcluster78 bin]# ./hdfs dfs -cp har:flume/test.har/data /flume/data1

并行解压（Mapreduce），使用DistCp:

[root@hadoopcluster78 bin]# ./hdfs dfs -cp har:flume/test.har/data /flume/data2

checknative

使用: hadoop checknative [-a] [-h]

命令参数	描述
`-a`	核对所有libraries的可用性
`-h`	打印帮助

这个命令用来核对可用的本地Code，默认情况下只核对libhadoop的可用性。

[hadoop@hadoopcluster78 bin]$ hadoop checknative
15/08/07 10:48:25 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version
15/08/07 10:48:25 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /home/hadoop/apache/hadoop-2.4.1/lib/native/libhadoop.so
zlib:   true /lib64/libz.so.1
snappy: false 
lz4:    true revision:99
bzip2:  false

classpath

使用: hadoop classpath [--glob |--jar <path> |-h |--help]

命令参数	描述
`--glob`	通配符
`--jar`path
`-h`,`--help`	打印帮助信息

[hadoop@hadoopcluster78 bin]$ hadoop classpath
/home/hadoop/apache/hadoop-2.4.1/etc/hadoop:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/common/lib/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/common/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/hdfs:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/hdfs/lib/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/hdfs/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/yarn/lib/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/yarn/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/mapreduce/lib/*:/home/hadoop/apache/hadoop-2.4.1/share/hadoop/mapreduce/*:/home/hadoop/apache/hadoop-2.4.1/contrib/capacity-scheduler/*.jar

credential

使用: hadoop credential <subcommand> [options]

命令参数	描述
createalias[-providerprovider-path]	提示证书被存储为指定别名的用户。如果没有-provider选项的话，那么将会默认使用core-site.xml文件中hadoop.security.credential.provider.path项对应的值。
deletealias[-providerprovider-path] [-f]	删除与所提供的别名对应的证书文件。如果没有-provider选项的话，那么将会默认使用core-site.xml文件中hadoop.security.credential.provider.path项对应的值。这项操作需要通过用户的确认，除非使用了-f选项。
list [-providerprovider-path]	列出所有的证书别名。如果没有-provider选项的话，那么将会默认使用core-site.xml文件中hadoop.security.credential.provider.path项对应的值。

该命令在凭证提供者内部管理凭证（credentials），密码（passwords）和秘密（secrets）。

Hadoop的CredentialProvider API支持应用程序拆分，并且要求拆分后的应用如何储存所需的密码（passwords）和秘密（secrets）。为了指明一个Provider的位置和类型，需要在core-site.xml添加hadoop.security.credential.provider.path配置项，或者通过指令中-provider命令选项进行设置。Provider路径是一串以逗号分割的URL字符串。这些字符串会说明Provider的类型和位置，举个例子：

user:///,jceks://file/tmp/test.jceks,jceks:/hdfs@nn1.example.com/my/path/test.jceks

指示当前用户的凭证，需要通过User Provider咨询。存储在本地文件系统的文件/tmp/test.jceks是一个Java Keystore Provider，相应的存储在hdfs上的文件nn1.example.com/my/path/test.jcek也是一个Java Keystore Provider。

当使用credential命令时，它通常要提供密码（password）或秘密（secret）给一个特定的凭证存储provider。为了清晰的表明要显示使用哪个provider存储，可以在命令中使用-provider选项。否则，给定多个provider的时候，则使用的哥非持久的provider，这可能不是你预期的

例如：hadoop credential list -provider jceks://file/tmp/test.jceks

distcp

递归的拷贝文件或者目录。查看上面的示例。

fs

和hdfs脚本的dfs类似

jar

使用: hadoop jar <jar> [mainClass] args...

运行一个jar文件

key

通过KeyProvider管理秘钥

trace

查看和修改Hadoop跟踪（tracing）设置。查看：跟踪（tracing）指南。

version

查看hadoop版本

[hadoop@hadoopcluster78 bin]$ hadoop version
Hadoop 2.4.1
Subversion Unknown -r Unknown
Compiled by root on 2014-07-13T01:39Z
Compiled with protoc 2.5.0
From source with checksum bb7ac0a3c73dc131f4844b873c74b630
This command was run using /home/hadoop/apache/hadoop-2.4.1/share/hadoop/common/hadoop-common-2.4.1.jar

CLASSNAME

使用: hadoop CLASSNAME

运行一个名字叫 CLASSNAME的类。

用户命令

对于hadoop集群管理员很有用的一些命令。

daemonlog

用以设置或获取指定后台进程的日志级别

使用：

hadoop daemonlog -getlevel <host:httpport> <classname>

hadoop daemonlog -setlevel <host:httpport> <classname> <level>

COMMAND_OPTION	Description
`-getlevel`host:httpportclassname	打印运行在<host:port>的守护进程的日志级别。这个命令内部会连接http://<host:port>/logLevel?log=<name>
`-setlevel`host:httpportclassnamelevel	设置运行在<host:port>的守护进程的日志级别。这个命令内部会连接http://<host:port>/logLevel?log=<name>

例如：

[root@hadoopcluster78 ~]# hadoop daemonlog -setlevel hadoopcluster78:50070 org.apache.hadoop.hdfs.server.namenode.NameNode WARN
Connecting to http://hadoopcluster78:50070/logLevel?log=org.apache.hadoop.hdfs.server.namenode.NameNode&level=WARN
Submitted Log Name: org.apache.hadoop.hdfs.server.namenode.NameNode
Log Class: org.apache.commons.logging.impl.Log4JLogger
Submitted Level: WARN
Setting Level to WARN ...
Effective level: WARN
[root@hadoopcluster78 ~]# hadoop daemonlog -getlevel hadoopcluster78:50070 org.apache.hadoop.hdfs.server.namenode.NameNode
Connecting to http://hadoopcluster78:50070/logLevel?log=org.apache.hadoop.hdfs.server.namenode.NameNode
Submitted Log Name: org.apache.hadoop.hdfs.server.namenode.NameNode
Log Class: org.apache.commons.logging.impl.Log4JLogger
Effective level: WARN

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。