集群间数据拷贝
  • scp实现两台远程主机之间数据的拷贝:
  • scp -r hello.txt root@hd102:/user/zy/hello.txt // 推 push
  • scp -r root@hd102:/user/zy/hello.txt hello.txt // 拉 pull
  • scp -r root@hd102:/user/zy/hello.txt root@hd103:/user/zy//是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式
  • 采用distcp命令实现两个Hadoop集群之间的递归数据复制:
[zy@hd101 hadoop-2.7.2]$  bin/hadoop distcp
hdfs://hd101:9000/user/zy/hello.txt
hdfs://hd102:9000/user/zy/hello.txt
小文件存档
HDFS存储小文件的弊端:
  • HDFS中,文件按块存储,每个块的元数据会被加载在NameNode的内存中,如果有大量 小文 件,则会耗尽NameNode的内存。
  • 注意:存储小文件需要的磁盘空间与块大小无关(若文件设置的块存储大小为128M,一个1M的小文件所占的空间为1M而不是128M
解决小文件存储的办法之一:
  • HDFS存档文件或HAR文件,是一个更高效的存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问,即:HDFS存档文件对内还是一个一个独立的文件,对NN却是一整个文件,减少的NN的内存使用
  • 案例实操
    ①需要启动YARN进程:
    start-yarn.sh ②归档文件:
    把/user/zy/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/zy/output路径下。
    [hadoop archive -archiveName input.har –p /user/zy/input /user/zy/output ③查看归档:
    hadoop fs -lsr /user/zy/output/input.har[hadoop fs -lsr har:///user/zy/output/input.har ④解归档文件:
    hadoop fs -cp har:/// user/zy/output/input.har/* /user/zy
回收站
  • 开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。
  1. 回收站参数设置及工作机制:
  2. hadoop distcp 架构设计 hadoop distcp -d_HDFS

  3. 启用回收站:
    修改core-site.xml,配置垃圾回收时间为1分钟。
<property>  
 	<name>fs.trash.interval</name>
	<value>1</value>
</property>
  1. 查看回收站:回收站在集群中的路径:/user/atguigu/.Trash/...
  2. 修改访问垃圾回收站用户名称:
    进入垃圾回收站用户名称,默认是dr.who,修改为zy用户
    [core-site.xml]
<property>
  <name>hadoop.http.staticuser.user</name>
  <value>zy</value>
</property>
  1. 通过程序删除的文件不会经过回收站,需要调用moveToTrash()才进入回收站
    Trash trash = New Trash(conf);trash.moveToTrash(path);
  2. 恢复回收站数据
    hadoop fs -mv /user/zy/.Trash/Current/user/zy/input /user/zy/input
  3. 清空回收站:
    hadoop fs -expunge
快照管理


hadoop distcp 架构设计 hadoop distcp -d_HDFS_02