1、 查看版本
hadoop version
2、 查看目录
hadoop fs -ls /
hadoop fs -ls /user/hadoop
3、 创建目录
hadoop fs -mkdir /user/in
4、 删除目录
hadoop dfs -rmr test
5、 删除文件
hadoop fs -rm test.txt
6、 上传文件到HDFS目录
haddop dfs -put *.txt test
7、 下载文件
hadoop dfs -get test test1
8、 查看文件内容
hadoop fs -text /user/hadoop/20120722/test1.txt
hadoop dfs –tail test
hadoop dfs –cat test
9、 复制文件:
(1) 从本地到hdfs
hadoop fs -copyFromLocal /tmp/test.txt /user/in/test.txt
(2) 从hdfs到hdfs
hadoop fs -cp /hadoop/test.txt /user/in/test.txt
10、 分布式复制(distcp)
(1) 说明:
dist分布式,cp复制
distcp操作会被解析为一个MapReduce操作来执行
(2) 用途:
用于在集群内部及集群之间复制数据
(3) 注意:
n 源路径必须是绝对路径
n 一般会跳过目标路径上已存在的文件,
n 可通过-overwirte可以选择对已存在的文件进行覆盖
n 通过-update可以对仅更新过的文件进行重写
(4) 用法:
n 要求集群版本一致
hadoop distcp hdfs://192.168.32.168/test hdfs://192.168.32.68/in
n 集群版本不一致
hadoop distcp hftp://192.168.32.168/test hdfs://192.168.32.68/in
11、 移动文件
hadoop fs -mv /data/in/test.txt /data/ok.txt
12、 执行jar文件
hadoop jar /tmp/testhdfs.jar test.my.CopyToHadoop
hadoop jar testhdfs.jar /user/hadoop/in/ncdc_all.txt /user/hadoop/output
13、 使用hadoop归档文件(archive)
(1) 作用:
hadoop归档文件和HAR文件可以将文件高效的放入HDFS块中的文件存档设备,在减少NameNode内在使用的同时,仍然允许对文件进行透明访问。也就是hadoop归档文件可以作为MapReduce的输入。
(2) 用法
hadoop archive -archiveName 归档文件名 要归档的文件源(可有多个)HAR文件的输出目录
hadoop archive -archiveName test.har /data/test/ /data/in/
(3) 查看归档文件中的文件
hadoop fs -lsr har:///data/in/test.har
14、 hadoop中System.out.println输出
(1) 首先打开http://localhost:50030/jobtracker.jsp进入jobtracker,在Completed Jobs中选刚执行的job
(2) 再选对应的map或者reduce,进Task Logs下面的all,里面有stdout logs和stderr logs
15、 fsck工具:检查HDFS中文件的健康状况
hadoop fsck /
16、 查找文件的所有块
hadoop fsck /data/in/hello.txt -files -blocks -racks
-files:显示文件的文件名、大小、块数量、及是否可用(是否存在丢失的块)
-blocks:显示每个块在文件中的信息,一个块用一行显示
-racks:显示每个块所在机架位置和datanode的位置
不加选项,则执行以上所有指令 = hadoop fsck /data/in/hello.txt
17、 均衡器
start-balancer.sh
or
hadoop balancer
18、 secondarynamenode操作
(1) 运行DFS的secondarynamenode进程
hadoop secondarynamenode
(2) 启动检查secondarynamenode的checkpoint过程(editlog超过规定大小,默认为64MB)
hadoop secondarynamenode -checkpoint
(3) 强制启动checkpoint过程
hadoop secondarynamenode -checkpoint force
(4) 显示editlog文件大小
hadoop secondarynamenode -geteditsize
19、 NameNode操作
(1) 运行DFS的namenode进程
hadoop namenode
(2) 格式化DFS文件系统
hadoop namenode -format
(3) 升级hadoop后启动namenode
hadoop namenode -upgrade
(4) 回滚namenode到前一版本
hadoop namenode -rollback
(5) 删除文件系统的前一个状态(将会导致系统不能回到前一个状态)
hadoop namenode -finalize
(6) 复制备份checkpoint的状态到当前checkpoint
hadoop namenode -importcheckpoint
20、 datanode操作
(1) 运行DFS的datanode进程
hadoop datanode
(2) 回滚namenode到前一版本
hadoop datanode -rollback
21、 验证Hadoop集群状态
hadoop dfsadmin -report
22、 启动Hadoop和HBase
start-all.sh
start-hbase.sh
23、 查看启动进程
jps