hadoop distcp 架构设计 hadoop distcp -d

转载

AI领域布道师 2024-07-26 12:56:03

scp -r hello.txt root@hd102:/user/zy/hello.txt // 推 push
scp -r root@hd102:/user/zy/hello.txt hello.txt // 拉 pull
scp -r root@hd102:/user/zy/hello.txt root@hd103:/user/zy//是通过本地主机中转实现两个远程主机的文件复制；如果在两个远程主机之间ssh没有配置的情况下可以使用该方式

[zy@hd101 hadoop-2.7.2]$  bin/hadoop distcp
hdfs://hd101:9000/user/zy/hello.txt
hdfs://hd102:9000/user/zy/hello.txt

HDFS存档文件或HAR文件，是一个更高效的存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问，即：HDFS存档文件对内还是一个一个独立的文件，对NN却是一整个文件，减少的NN的内存使用
案例实操
①需要启动YARN进程：
start-yarn.sh ②归档文件：
把/user/zy/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/zy/output路径下。
[hadoop archive -archiveName input.har –p /user/zy/input /user/zy/output ③查看归档：
hadoop fs -lsr /user/zy/output/input.har[hadoop fs -lsr har:///user/zy/output/input.har ④解归档文件：
hadoop fs -cp har:/// user/zy/output/input.har/* /user/zy

hadoop distcp 架构设计 hadoop distcp -d_HDFS

<property>  
 	<name>fs.trash.interval</name>
	<value>1</value>
</property>

<property>
  <name>hadoop.http.staticuser.user</name>
  <value>zy</value>
</property>

通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站
Trash trash = New Trash(conf);trash.moveToTrash(path);
恢复回收站数据
hadoop fs -mv /user/zy/.Trash/Current/user/zy/input /user/zy/input
清空回收站:
hadoop fs -expunge