1、HDFS基本概念

  • 什么是HDFS

HDFS是Hadoop Distribute File System的简称, 是Hadoop分布式文件系统, 是Hadoop核心组件之一, 作为最底层的分布式存储服务而存在。

分布式文件系统解决的问题是大数据存储,它们是横跨在多台计算机上的存储。

框架图

hdfs 支持 nfs hdfs du_文件系统

  • HDFS设计目标

1)硬件故障是常态。HDFS将有成百上千的服务器组成,每一个组成部分都有可能出现故障, 因此故障的检测和自动快速恢复是HDFS的核心架构目标。

2)HDFS上的应用与一般的应用不同, 它们主要是以流式读取数据。HDFS被设计成适合批量处理, 而不是用户交互式,相较于数据访问的访问时间,更注重数据访问的高吞吐量

3)典型的HDFS文件大小是GB到TB的级别, 所以, HDFS被调整成支持大文件。它应该提供很高的聚合数据宽带, 一个集群中支持数百个节点, 一个集群中还支持千万个级别的文件。

4)大部分HDFS应用对文件的要求是write-one-read-many访问模型。一个文件一旦创建、写入、关闭后就不修改,使高吞吐量的数据访问成为可能。

5)移动计算的代价比移动数据的代价低。一个应用请求的计算,离它操作的数据越近越高效, 这在数据达到海量级别的时候更是如此。将计算移动到数据附件,比将数据移动到应用所在显然更好。(简单来说,就是数据不动, 将要运行的代码移动,代码离数据越近越好, 一般的我们都是代码不动,将数据读取进来, 这里不太一样)

6)在异构的硬件和软件平台上的可移植性。这将推动大数据集的应用更广泛的采用HDFS作为平台。

2、HDFS重要特征

首先, 它是一个文件系统, 用于用于存储文件, 通过统一的命名空间目录树来定为文件。

其次, 它是分布式的, 由很多台服务器联合起来实现其功能,集群中的服务器有各自的角色。

  • master/slave架构

HDFS采用master/slave架构。一般一个HDFS集群有一个Namedone和一定数目的Datanode组成。 Namenode是HDFS集群主节点, Datanode是HDFS集群从节点, 两者各司其职, 共同协调完成分布式文件存储服务。

  • 分块存储

HDFS中的文件在物理上是分块存储(block)的, 块的大小可以通过配置参数来规定, 默认在hadoop3.x中是128M。

hdfs 支持 nfs hdfs du_HDFS_02

  • 名字空间

HDFS支持传统的层次型文件组织结构, 用户或者应用程序可以创建目录, 然后将文件保存在这些目录里, 文件系统命名空间层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或者重命名文件。

Namenode负责维护文件系统的命名空间。任何对文件系统名字空间或者属性的修改都会被Namenode记录下来。

HDFS会给客户端提供一个统一的抽象目录树, 客户端通过路径来访问文件。

  • Namenode元数据管理

我们把目录结构及文件分块位置信息叫做元数据。 Namenode负责维护整个HDFS文件系统的目录树结构, 以及每一个文件对应的block块信息(block的id及所在的datanode服务器)。

  • Datanode数据存储

文件的各个block的具体存储管理有datanode节点承担, 每一个block都可以在多个datanode上。 Datanode需要定时向Namenode汇报自己持有的block信息。
存储多个副本(副本数量可以通过参数设置dfs.replication。默认3)

  • 副本机制

为了容错, 文件的所有block都会有副本数, 每个文件的block大小和副本系数都是可配置的, 应用程序可以指定某个文件的副本系数,副本系数可以在文件创建的时候指定也可以在之后改变。

  • 一次写入, 多次读出

HDFS适合一次写入多次读出且不支持文件的修改
正因为如此, HDFS时候用来做大数据分析的底层存储服务, 并不适合用来做网盘, 修改不方便, 延迟大, 网络开销大, 成本高, 设计时是要求有高吞吐量的。

3、HDFS基本操作

  • Shell命令行客户端

Hadoop提供了文件系统的shell命令行客户端的shell命令行客户端, 使用方法如下:
hadoop fs

文件系统shell包括与Hadoop分布式文件系统(HDFS)以及Hadoop支持的其他文件系统(如本体FS, HFTP FS, S3 FS等)直接交互的各种类似shell的命令,所有FS shell 命令都将路径URL作为参数。

URL格式为 scheme://authority/path。 对于HDFS,该scheme是hdfs, 对于本地FS是file。 scheme和authority是可选的。 如未指定, 则使用默认配置中指定的默认方案。

对于HDFS, 命令示例如下:
hadoop fs -ls hdfs://namenode:host/parent/child
hadoop fs -ls /parent/child #fs.defaultFS中有配置

对于本地文件系统,命令示例如下:
hadoop fs -ls fill:///rrot/

如果使用的文件系统时HDFS, 则使用hdfs dfs也是可以的, 此时:
hadoop fs = hdfs dfs

  • Shell 常用命令介绍

-ls

使用方法: hadoop fs -ls [-h] [-R]

功能:显示文件、 目录信息

-mkdir

使用方法: hadoop fs -mkdir [-P]

功能:在hdfs上创建目录, -p表示会创建路径中的各级父目录

-put

使用方法:hadoop fs -put [-f] [-p] [-| …].

功能:将单个src或者多个srcs从本地(也就是该linux机上的文件)文件系统复制到目标文件系统。

-p:保存访问和修改时间, 所有权和权限

-f:覆盖目的地(如果已经存在)

示例: hadoop fs -put -f localfile1 localfile2 /user/hadoop/hadoopdir

-get

使用方法:hadoop fs -get [-ignorecrc] [-crc] [-p] [-f]

-ignorecrc: 跳过对下载文件的CRC检查

-crc:为下载的文件写CRC校验和

-appendToFile

这里是追加, 跟修改有区别

使用方法:hadoop fs -appendToFile …

功能:追加一个文件到已经存在的文件末尾

示例: hadoop fs -appendToFile localfile /hadoop/hadoopfile

这里是将本地的文件追加到HDFS上的一个文件

-cat

使用方法:hadoop fs -cat [-ignoreCrc] URI [URI …]

功能: 显示文件内容到stdout

-tail

使用方法: handoop fs -tail [-f] URI

功能:将文件的最后一千字节内容显示到stdout

-f 选项将在文件增长时输出附加数据

-chgrp

使用方法:hadoop fs -chgrp [-R] GROUP URI [URI…]

功能:更改文件组的关联。用户必须是文件的所有者。否则是超级用户。

-R:将使改变在目录结构下递归进行。

示例: hadoop fs -chgrp othergroup /hadoophadoopfile

-chmod

功能:改变文件的权限。

-R:将使改变在目录结构下递归进行

示例:hadoop fs -chmod 666 /hadoop/hadoopfile

-chown

功能:改变文件的拥有者。

-R:将使改变在目录结构下递归进行

-copyFromLocal(不常用 一般用-put)

使用方法:hadoop fs -copyFromLocal URI

功能:从本地文件系统中拷贝文件到hdfs路径去

示例;hadoop fs -copyFromLocal /root/1.txt /

-copyToLocal(不常用 一般用-get)

功能:从hdfs拷贝到本地

示例:hadoop fs -copyToLocal /aaa/jdk.tar.gz /root/

-cp

功能: 从hdfs的一个路径拷贝hdfs拷贝到hdfs的另一个路径

示例:hadoop fs -cp /cont1/a.tar.gz /cont2/a.tar.gz.2

-mv

功能:在hdfs目录中移动文件

示例:hadoop fs -mv /cont/a.tar.gz /

-getmerge

功能:合并下载多个文件

示例:比如hdfs的目录/cont/下有多个文件:log.1 log.2 log.3 …
hdfs fs -getmerge /contlog.* ./log.sum

-df

功能:统计文件系统的可用空间信息

示例:hadoop fs -df -h /

-du

功能:显示目录中所有文件大小, 当只指定一个文件时, 显示此文件的大小

示例:hadoop fs -du /user/hadoop/dir1

-setrep

功能:改变一个文件的副本个数。

-R: 选项用于递归改变目录下所有文件的副本系数。

示例:hadoop fs -setrep -w 3 -R /user/hadoop/dir1