集群间数据拷贝
- scp实现两台远程主机之间数据的拷贝:
scp -r hello.txt root@hd102:/user/zy/hello.txt // 推 push
scp -r root@hd102:/user/zy/hello.txt hello.txt // 拉 pull
-
scp -r root@hd102:/user/zy/hello.txt root@hd103:/user/zy
//是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式
- 采用distcp命令实现两个Hadoop集群之间的递归数据复制:
[zy@hd101 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://hd101:9000/user/zy/hello.txt
hdfs://hd102:9000/user/zy/hello.txt
小文件存档
HDFS存储小文件的弊端:
- HDFS中,文件按块存储,每个块的元数据会被加载在NameNode的内存中,如果有大量 小文 件,则会耗尽NameNode的内存。
- 注意:存储小文件需要的磁盘空间与块大小无关(若文件设置的块存储大小为128M,一个1M的小文件所占的空间为1M而不是128M)
解决小文件存储的办法之一:
- HDFS存档文件或HAR文件,是一个更高效的存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问,即:HDFS存档文件对内还是一个一个独立的文件,对NN却是一整个文件,减少的NN的内存使用
- 案例实操
①需要启动YARN进程:start-yarn.sh
②归档文件:
把/user/zy/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/zy/output路径下。[hadoop archive -archiveName input.har –p /user/zy/input /user/zy/output
③查看归档:hadoop fs -lsr /user/zy/output/input.har
[hadoop fs -lsr har:///user/zy/output/input.har
④解归档文件:hadoop fs -cp har:/// user/zy/output/input.har/* /user/zy
回收站
- 开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。
- 回收站参数设置及工作机制:
- 启用回收站:
修改core-site.xml,配置垃圾回收时间为1分钟。
<property>
<name>fs.trash.interval</name>
<value>1</value>
</property>
- 查看回收站:回收站在集群中的路径:
/user/atguigu/.Trash/...
- 修改访问垃圾回收站用户名称:
进入垃圾回收站用户名称,默认是dr.who,修改为zy用户
[core-site.xml]
<property>
<name>hadoop.http.staticuser.user</name>
<value>zy</value>
</property>
- 通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站
Trash trash = New Trash(conf);
trash.moveToTrash(path);
- 恢复回收站数据
hadoop fs -mv /user/zy/.Trash/Current/user/zy/input /user/zy/input
- 清空回收站:
hadoop fs -expunge
快照管理