4.1. 分布式文件系统与 HDFS

数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统

管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就

是分布式文件管理系统 。

学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的文

件系统,可让多机器上的多用户分享文件和存储空间。

分布式文件管理系统很多,hdfsHDFS只是其中一种。适用于一次写入、多次查询的情况,不支持并发写情况,小文件不合适。

小提示:如何在刚开始学习的时候,形象化的地理解什么是HDFS哪呢?我们可以把HDFS

看做是wWindows的文件系统。在wWindows的文件系统维护着有一套很多层次的文件夹目录,

这么复杂的目录层次是为了在文件夹中分门别类的地存放文件。我们经常做的操作是创建文

件夹、创建文件、移动文件、复制文件、删除文件、编辑文件、查找文件等。HDFS 与 wWindows

中的文件系统类似,看到的和操作的也类似。读者可以把 HDFS 理解为分 wWindows 文件系统。

4.2. HDFS的 shell操作

既然 HDFS是存取数据的分布式文件系统,那么对 HDFS的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对

HDFS的操作命令类似于 lLinux的 shell对文件的操作,如 ls、mkdir、rm等。我们执行以下操作的时候,一定要确定 hadoop是正常运行的,使用 jps命令确保看到

各个 hadoop进程。我们执行命令 hadoop fs,如图 4-1所示。




HDFS文件上传下载 hdfs 上传文件夹_hdfs复制文件夹


图中显示了很多命令选项信息。以上截图不全,我在表格 4-1中完整的地列出了支持的命令选项。

选项名称 使用格式 含义

-ls -ls 查看指定路径的当前目录结构-lsr -lsr 递归查看指定路径的目录结构-du -du 统计目录下个文件大小-dus -dus 汇总统计目录下文件(夹)大小-count -count [-q] 统计文件(夹)数量-mv -mv 移动-cp -cp 复制-rm -rm [-skipTrash] 删除文件/空白文件夹-rmr -rmr [-skipTrash] 递归删除-put -put 上传文件-copyFromLocal -copyFromLocal

从本地复制

-moveFromLocal -moveFromLocal

从本地移动

-getmerge -getmerge 合并到本地-cat -cat 查看文件内容-text -text 查看文件内容-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路

静] [linux目的路径]从本地复制

-moveToLocal -moveToLocal [-crc]

从本地移动

-mkdir -mkdir 创建空白文件夹-setrep -setrep [-R] [-w] 修改副本数量-touchz -touchz 创建空白文件

dongying

这种黑图,截图环境能否漂亮一些?印的时候可能会不清楚。如果环境不可调,只能排版的时候一个一个调

-stat -stat [format] 显示文件统计信息-tail -tail [-f] 查看文件尾部信息-chmod -chmod [-R] [路径] 修改权限-chown -chown [-R] [属主][:[属组]] 路径 修改属主-chgrp -chgrp [-R] 属组名称 路径 修改数组-help -help [命令选项] 帮助

注意:以上表格中对于路径,包括 hdfs中的路径和 linux中的路径。对于容易产生歧义的地方,会特别指出"linux路径"或者"hdfs路径"。如果没有明确指出,意味着是 hdfs路径。

下面我们讲述每个命令选项的用法。

 -ls 显示当前目录结构

该命令选项表示查看指定路径的当前目录结构,后面跟 hdfs路径,如果图 4-1所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_02


上图中的路径是 hdfs根目录,显示的内容格式与 linux的命令 ls –l显示的内容格式非常相似,现在下面解析每一行的内容格式:

 首字母表示文件夹(如果是"d")还是文件(如果是"-"); 后面的 9位字符表示权限; 后面的数字或者"-"表示副本数。如果是文件,使用数字表示副本数;文件夹没有副

本;

 后面的"root"表示属主; 后面的"supergroup"表示属组; 后面的"0"、"6176"、"37645"表示文件大小,单位是字节; 后面的时间表示修改时间,格式是年月日时分;

 最后一项表示文件路径。

可见根目录下面有四个文件夹、两个文件。

如果该命令选项后面没有路径,那么就会访问/user/目录。我们使用 root用户登录,因此会访问 hdfs的/user/root目录,如图 4-2.所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs中创建用户目录_03


如果没有这个目录/user/root,会提示文件不存在的错误。

 -lsr 递归显示目录结构

该命令选项表示递归显示当前路径的目录结构,后面跟 hdfs路径。如图 4-3所示。


HDFS文件上传下载 hdfs 上传文件夹_hdfs复制文件夹_04


显示/user目录下有个 root目录,root目录下有文件 abc。

 -du 统计目录下各文件大小

该命令选项显示指定路径下的文件大小,单位是字节,如图 4-4.所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs中创建用户目录_05


 -dus 汇总统计目录下文件大小

该命令选项显示指定路径的文件大小,单位是字节,如图 4-5所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs中创建用户目录_06


请读者比较图 4-4与图 4-5的区别,体会两个命令选项的不同含义。

 -count 统计文件(夹)数量

该命令选项显示指定路径下的文件夹数量、文件数量、文件总大小信息,如图 4-6所示.。


HDFS文件上传下载 hdfs 上传文件夹_hdfs复制文件夹_07


在图 4-6中有两条命令,下面的命令是为了佐证上面命令的正确性的。

 -mv 移动

该命令选项表示移动 hdfs的文件到指定的 hdfs目录中。后面跟两个路径,第一个表示源文件,第二个表示目的目录。,如图 4-7所示。.


HDFS文件上传下载 hdfs 上传文件夹_在hdfs中创建用户目录_08


在图 4-7中有三条命令,是为了体现移动前后的变化情况。

 -cp 复制

该命令选项表示复制 hdfs指定的文件到指定的 hdfs目录中。后面跟两个路径,第一个是被复制的文件,第二个是目的地。,如图 4-8所示。.


HDFS文件上传下载 hdfs 上传文件夹_在hdfs中创建用户目录_09


在图 4-8中有三条命令,是为了体现复制前后的变化情况。

 -rm 删除文件/空白文件夹

该命令选项表示删除指定的文件或者空目录,如图 4-9所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_10


在图 4-9中,前三条命令是为了体现执行前后的变化情况。第四条命令是删除非空的"/user/root"目录,操作失败,表明不能删除非空目录。

 -rmr 递归删除

该命令选项表示递归删除指定目录下的所有子目录和文件,如图 4-10所示。


HDFS文件上传下载 hdfs 上传文件夹_HDFS文件上传下载_11


 -put 上传文件

该命令选项表示把 linux上的文件复制到 hdfs中,如图 4-11所示。.


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_12


 -copyFromLocal 从本地复制

操作与-put一致,不再举例。

 -moveFromLocal 从本地移动

该命令表示把文件从 linux上移动到 hdfs中,如图 4-12所示。


HDFS文件上传下载 hdfs 上传文件夹_hdfs_13


 getmerge 合并到本地

该命令选项的含义是把 hdfs指定目录下的所有文件内容合并到本地 linux的文件中,如图4-13所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_14


 -cat 查看文件内容

该命令选项是查看文件内容,如图 4-14所示。


HDFS文件上传下载 hdfs 上传文件夹_hdfs_15


 -text 查看文件内容

该命令选项可以认为作用和用法与-cat相同,此处略。

 -mkdir 创建空白文件夹

该命令选项表示创建文件夹,后面跟的路径是在 hdfs将要创建的文件夹,如图 4-15所示。


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_16


 -setrep 设置副本数量

该命令选项是修改已保存文件的副本数量,后面跟副本数量,再跟文件路径,如图 4-16所示。


HDFS文件上传下载 hdfs 上传文件夹_hdfs_17


在图 4-16中,我们修改了文件/install.log的副本数,由 1修改为 2,意味着多了一个副本,HDFS会自动执行文件的复制工作,产生新的副本。

如果最后的路径表示文件夹,那么需要跟选项-R,表示对文件夹中的所有文件都修改副本,如图 4-17所示。.


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_18


在图 4-17中,我们对/user文件夹进行的操作,使用了选项-R,那么/user/root下的文件 abc的副本数发生了改变。

还有一个选项是-w,表示等待副本操作结束才退出命令,如图 4-18所示。.


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_19


请读者自己比较以上两图中使用-q前后执行结果的变化情况。

 -touchz 创建空白文件

该命令选项是在 hdfs中创建空白文件,如图 4-19所示。


HDFS文件上传下载 hdfs 上传文件夹_hdfs复制文件夹_20


 -stat 显示文件的统计信息


HDFS文件上传下载 hdfs 上传文件夹_在hdfs文件系统中创建目录连接失败_21