1、  查看版本

hadoop version

2、  查看目录

hadoop fs -ls /

hadoop fs -ls /user/hadoop

3、  创建目录

hadoop fs -mkdir /user/in

4、  删除目录

hadoop dfs -rmr test

5、  删除文件

hadoop fs -rm test.txt

6、  上传文件到HDFS目录

haddop dfs -put *.txt test

7、  下载文件

hadoop dfs -get test test1

8、  查看文件内容

hadoop fs -text /user/hadoop/20120722/test1.txt

hadoop dfs –tail test

hadoop dfs –cat test

9、  复制文件:

(1)  从本地到hdfs

hadoop fs -copyFromLocal /tmp/test.txt /user/in/test.txt

(2)  从hdfs到hdfs

hadoop fs -cp /hadoop/test.txt /user/in/test.txt

10、 分布式复制(distcp)

(1)  说明:

dist分布式,cp复制

distcp操作会被解析为一个MapReduce操作来执行

(2)  用途:

用于在集群内部及集群之间复制数据

(3)  注意:
n 源路径必须是绝对路径
n 一般会跳过目标路径上已存在的文件,
n 可通过-overwirte可以选择对已存在的文件进行覆盖
n 通过-update可以对仅更新过的文件进行重写
(4)  用法:
n 要求集群版本一致

hadoop distcp hdfs://192.168.32.168/test hdfs://192.168.32.68/in

n 集群版本不一致

hadoop distcp hftp://192.168.32.168/test hdfs://192.168.32.68/in

11、 移动文件

hadoop fs -mv /data/in/test.txt /data/ok.txt

12、 执行jar文件

hadoop jar /tmp/testhdfs.jar test.my.CopyToHadoop

hadoop jar testhdfs.jar /user/hadoop/in/ncdc_all.txt /user/hadoop/output

13、 使用hadoop归档文件(archive)

(1)  作用:

hadoop归档文件和HAR文件可以将文件高效的放入HDFS块中的文件存档设备,在减少NameNode内在使用的同时,仍然允许对文件进行透明访问。也就是hadoop归档文件可以作为MapReduce的输入。

(2)  用法

hadoop archive -archiveName 归档文件名 要归档的文件源(可有多个)HAR文件的输出目录

hadoop archive -archiveName test.har /data/test/ /data/in/

(3)  查看归档文件中的文件

hadoop fs -lsr har:///data/in/test.har

14、 hadoop中System.out.println输出

(1)  首先打开http://localhost:50030/jobtracker.jsp进入jobtracker,在Completed Jobs中选刚执行的job
(2)  再选对应的map或者reduce,进Task Logs下面的all,里面有stdout logs和stderr logs

15、 fsck工具:检查HDFS中文件的健康状况

hadoop fsck /

16、 查找文件的所有块

hadoop fsck /data/in/hello.txt -files -blocks -racks

-files:显示文件的文件名、大小、块数量、及是否可用(是否存在丢失的块)

-blocks:显示每个块在文件中的信息,一个块用一行显示

-racks:显示每个块所在机架位置和datanode的位置

不加选项,则执行以上所有指令 = hadoop fsck /data/in/hello.txt

17、 均衡器

start-balancer.sh

  or

hadoop balancer

18、 secondarynamenode操作

(1)  运行DFS的secondarynamenode进程

hadoop secondarynamenode

(2)  启动检查secondarynamenode的checkpoint过程(editlog超过规定大小,默认为64MB)

hadoop secondarynamenode -checkpoint

(3)  强制启动checkpoint过程

hadoop secondarynamenode -checkpoint force

(4)  显示editlog文件大小

hadoop secondarynamenode -geteditsize

19、 NameNode操作

(1)  运行DFS的namenode进程

 hadoop namenode

(2)  格式化DFS文件系统

hadoop namenode -format

(3)  升级hadoop后启动namenode

hadoop namenode -upgrade

(4)  回滚namenode到前一版本

hadoop namenode -rollback

(5)  删除文件系统的前一个状态(将会导致系统不能回到前一个状态)

hadoop namenode -finalize

(6)  复制备份checkpoint的状态到当前checkpoint

hadoop namenode -importcheckpoint

20、 datanode操作

(1)  运行DFS的datanode进程

hadoop datanode

(2)  回滚namenode到前一版本

hadoop datanode -rollback

21、 验证Hadoop集群状态

hadoop dfsadmin -report

22、 启动Hadoop和HBase

start-all.sh

start-hbase.sh

23、 查看启动进程

jps