四、HADOOP(HDFS)-07

HDFS2.X新特性

1、集群间数据拷贝

1、scp实现两个远程主机之间的文件复制

scp -r hello.txt root@hadoop103:/user/hello.txt #推 push
scp -r root@hadoop103:/user/hello.txt hello.txt # 拉 pull
scp -r root@hadoop103:/user/hello.txt root@hadoop104:/user/
#通过本地主机中转实现两个远程主机的文件复制

2、采用distcp命令实现两个Hadoop集群之间的递归数复制

[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://haoop102:9000/user/hello.txt 
hdfs://hadoop103:9000/user/hello.txt

2、小文件存档

1、HDFS存储小文件弊端

每一个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。

2、解决存储小文件办法

HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少NameNode的内存。

hadoop cp 命令 hadoop fs cp_HDFS

3、案例

(1) 需要启动YARN进程

[lyinl@hadoop102 hadoop-2.7.2]$ start-yarn.sh

(2) 归档文件

把/user/input 目录里面的所有文件归档一个input.har的归档文件,并把归档后文件存储到/user/output路径下。

[lyinl@hadoop102 hadoop-2.7.2]$ bin/hadoop archive -
archiveName input.har –p /user/input  /user/output

(3) 查看文档

[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr 
/user/output/input.har
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -lsr 
har:///user/output/input.har

(4) 解归档文件

[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -cp har:/// 
user/output/input.har/* /user/

3、回收站

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。

1、开启回收站功能参数说明:

1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间

2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等

3、要求fs.trash.checkpoint.interval<=fs.trash.interval。

hadoop cp 命令 hadoop fs cp_hadoop cp 命令_02

2、启用回收站

修改core-site.xml,配置垃圾回收时间为1分钟。

<property>
 <name>fs.trash.interval</name>
<value>1</value>
</property>
3、查看回收站

回收站:/user/.Trash/…

4、修改访问垃圾回收站用户名

[core-site.xml]

<property>
 <name>hadoop.http.staticuser.user</name>
 <value>lyinl</value>
</property>
5、通过程序删除的文件不会经过回收站,需要调用moveToTrash才进入回收站Trash trash=New Trash(conf);

trash.moveToTrash(path);

6、恢复回收站数据
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -mv
/user/.Trash/Current/user/lyinl/input 
/user/lyinl/input
7、清空回收站
[lyinl@hadoop102 hadoop-2.7.2]$ hadoop fs -expunge

4、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件,而是记录文件变化。

命令

功能描述

hdfs dfsadmin -allowSnapshot 路径

开启指定目录的快照功能

hdfs dfsadmin -disallowSnapshot 路径

禁用指定目录的快照功能,默认是禁用

hdfs dfs -createSnapshot 路径

hdfs dfs -createSnapshot 路径

hdfs dfs -createSnapshot 路径 名称

指定名称创建快照

hdfs dfs -renameSnapshot 路径 旧名称 新名称

重命名快照

hdfs lsSnapshottableDir

列出当前用户所有可快照目录

hdfs snapshotDiff 路径1 路径2

比较两个快照目录的不同之处

hdfs dfs -deleteSnapshot


删除快照

案例实操

(1) 开启/禁用指定目录的开罩功能

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
allowSnapshot /user/lyinl/input
[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfsadmin -
disallowSnapshot /user/lyinl/input

(2) 对目录创建快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot 
/user/lyinl/input

通过web访问

hdfs://hadoop102:50070/user/lyinl/input/.snapshot/s……//快照和源文

件使用相同数据

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr 
/user/lyinl/input/.snapshot/

(3) 指定名称创建快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -createSnapshot 
/user/lyinl/input hello12345

(4) 重命名快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -renameSnapshot 
/user/lyinl/input/hello12345 word789

(5) 列出当前用户所有可快目录

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs lsSnapshottableDir

(6) 比较两个快照目录的不同之处

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs snapshotDiff
/user/lyinl/input/ . .snapshot/word789

(7) 恢复快照

[lyinl@hadoop102 hadoop-2.7.2]$ hdfs dfs -cp
/user/lyinl/input/.snapshot/s20170708-134303.027 /user