四、HADOOP(HDFS)-07
HDFS2.X新特性
1、集群间数据拷贝
1、scp实现两个远程主机之间的文件复制
scp -r hello.txt root@hadoop103:/user/hello.txt #推 push
scp -r root@hadoop103:/user/hello.txt hello.txt # 拉 pull
scp -r root@hadoop103:/user/hello.txt root@hadoop104:/user/
#通过本地主机中转实现两个远程主机的文件复制
2、采用distcp命令实现两个Hadoop集群之间的递归数复制
[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://haoop102:9000/user/hello.txt
hdfs://hadoop103:9000/user/hello.txt
2、小文件存档
1、HDFS存储小文件弊端
每一个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。
2、解决存储小文件办法
HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少NameNode的内存。
3、案例
(1) 需要启动YARN进程
[lyinl@hadoop102 hadoop-2.7.2]$ start-yarn.sh
(2) 归档文件
把/user/input 目录里面的所有文件归档一个input.har的归档文件,并把归档后文件存储到/user/output路径下。
[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -
archiveName input.har –p /user/input /user/output
(3) 查看文档
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr
/user/output/input.har
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr
har:///user/output/input.har
(4) 解归档文件
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:///
user/output/input.har/* /user/
3、回收站
开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。
1、开启回收站功能参数说明:
1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间。
2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。
3、要求fs.trash.checkpoint.interval<=fs.trash.interval。
2、启用回收站
修改core-site.xml,配置垃圾回收时间为1分钟。
<property>
<name>fs.trash.interval</name>
<value>1</value>
</property>
3、查看回收站
回收站:/user/.Trash/…
4、修改访问垃圾回收站用户名
[core-site.xml]
<property>
<name>hadoop.http.staticuser.user</name>
<value>lyinl</value>
</property>
5、通过程序删除的文件不会经过回收站,需要调用moveToTrash才进入回收站Trash trash=New Trash(conf);
trash.moveToTrash(path);
6、恢复回收站数据
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -mv
/user/.Trash/Current/user/lyinl/input
/user/lyinl/input
7、清空回收站
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -expunge
4、快照管理
快照相当于对目录做一个备份。并不会立即复制所有文件,而是记录文件变化。
命令 | 功能描述 |
hdfs dfsadmin -allowSnapshot 路径 | 开启指定目录的快照功能 |
hdfs dfsadmin -disallowSnapshot 路径 | 禁用指定目录的快照功能,默认是禁用 |
hdfs dfs -createSnapshot 路径 | hdfs dfs -createSnapshot 路径 |
hdfs dfs -createSnapshot 路径 名称 | 指定名称创建快照 |
hdfs dfs -renameSnapshot 路径 旧名称 新名称 | 重命名快照 |
hdfs lsSnapshottableDir | 列出当前用户所有可快照目录 |
hdfs snapshotDiff 路径1 路径2 | 比较两个快照目录的不同之处 |
hdfs dfs -deleteSnapshot | 删除快照 |
案例实操
(1) 开启/禁用指定目录的开罩功能
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
allowSnapshot /user/lyinl/input
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
disallowSnapshot /user/lyinl/input
(2) 对目录创建快照
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot
/user/lyinl/input
通过web访问
hdfs://hadoop102:50070/user/lyinl/input/.snapshot/s……//快照和源文
件使用相同数据
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr
/user/lyinl/input/.snapshot/
(3) 指定名称创建快照
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot
/user/lyinl/input hello12345
(4) 重命名快照
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -renameSnapshot
/user/lyinl/input/hello12345 word789
(5) 列出当前用户所有可快目录
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs lsSnapshottableDir
(6) 比较两个快照目录的不同之处
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs snapshotDiff
/user/lyinl/input/ . .snapshot/word789
(7) 恢复快照
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -cp
/user/lyinl/input/.snapshot/s20170708-134303.027 /user