1、HDFS基本概念
- 什么是HDFS
HDFS是Hadoop Distribute File System的简称, 是Hadoop分布式文件系统, 是Hadoop核心组件之一, 作为最底层的分布式存储服务而存在。
分布式文件系统解决的问题是大数据存储,它们是横跨在多台计算机上的存储。
框架图
- HDFS设计目标
1)硬件故障是常态。HDFS将有成百上千的服务器组成,每一个组成部分都有可能出现故障, 因此故障的检测和自动快速恢复是HDFS的核心架构目标。
2)HDFS上的应用与一般的应用不同, 它们主要是以流式读取数据。HDFS被设计成适合批量处理, 而不是用户交互式,相较于数据访问的访问时间,更注重数据访问的高吞吐量。
3)典型的HDFS文件大小是GB到TB的级别, 所以, HDFS被调整成支持大文件。它应该提供很高的聚合数据宽带, 一个集群中支持数百个节点, 一个集群中还支持千万个级别的文件。
4)大部分HDFS应用对文件的要求是write-one-read-many访问模型。一个文件一旦创建、写入、关闭后就不修改,使高吞吐量的数据访问成为可能。
5)移动计算的代价比移动数据的代价低。一个应用请求的计算,离它操作的数据越近越高效, 这在数据达到海量级别的时候更是如此。将计算移动到数据附件,比将数据移动到应用所在显然更好。(简单来说,就是数据不动, 将要运行的代码移动,代码离数据越近越好, 一般的我们都是代码不动,将数据读取进来, 这里不太一样)
6)在异构的硬件和软件平台上的可移植性。这将推动大数据集的应用更广泛的采用HDFS作为平台。
2、HDFS重要特征
首先, 它是一个文件系统, 用于用于存储文件, 通过统一的命名空间目录树来定为文件。
其次, 它是分布式的, 由很多台服务器联合起来实现其功能,集群中的服务器有各自的角色。
- master/slave架构
HDFS采用master/slave架构。一般一个HDFS集群有一个Namedone和一定数目的Datanode组成。 Namenode是HDFS集群主节点, Datanode是HDFS集群从节点, 两者各司其职, 共同协调完成分布式文件存储服务。
- 分块存储
HDFS中的文件在物理上是分块存储(block)的, 块的大小可以通过配置参数来规定, 默认在hadoop3.x中是128M。
- 名字空间
HDFS支持传统的层次型文件组织结构, 用户或者应用程序可以创建目录, 然后将文件保存在这些目录里, 文件系统命名空间层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或者重命名文件。
Namenode负责维护文件系统的命名空间。任何对文件系统名字空间或者属性的修改都会被Namenode记录下来。
HDFS会给客户端提供一个统一的抽象目录树, 客户端通过路径来访问文件。
- Namenode元数据管理
我们把目录结构及文件分块位置信息叫做元数据。 Namenode负责维护整个HDFS文件系统的目录树结构, 以及每一个文件对应的block块信息(block的id及所在的datanode服务器)。
- Datanode数据存储
文件的各个block的具体存储管理有datanode节点承担, 每一个block都可以在多个datanode上。 Datanode需要定时向Namenode汇报自己持有的block信息。
存储多个副本(副本数量可以通过参数设置dfs.replication。默认3)
- 副本机制
为了容错, 文件的所有block都会有副本数, 每个文件的block大小和副本系数都是可配置的, 应用程序可以指定某个文件的副本系数,副本系数可以在文件创建的时候指定也可以在之后改变。
- 一次写入, 多次读出
HDFS适合一次写入多次读出, 且不支持文件的修改。
正因为如此, HDFS时候用来做大数据分析的底层存储服务, 并不适合用来做网盘, 修改不方便, 延迟大, 网络开销大, 成本高, 设计时是要求有高吞吐量的。
3、HDFS基本操作
- Shell命令行客户端
Hadoop提供了文件系统的shell命令行客户端的shell命令行客户端, 使用方法如下:
hadoop fs
文件系统shell包括与Hadoop分布式文件系统(HDFS)以及Hadoop支持的其他文件系统(如本体FS, HFTP FS, S3 FS等)直接交互的各种类似shell的命令,所有FS shell 命令都将路径URL作为参数。
URL格式为 scheme://authority/path。 对于HDFS,该scheme是hdfs, 对于本地FS是file。 scheme和authority是可选的。 如未指定, 则使用默认配置中指定的默认方案。
对于HDFS, 命令示例如下:
hadoop fs -ls hdfs://namenode:host/parent/child
hadoop fs -ls /parent/child #fs.defaultFS中有配置
对于本地文件系统,命令示例如下:
hadoop fs -ls fill:///rrot/
如果使用的文件系统时HDFS, 则使用hdfs dfs也是可以的, 此时:
hadoop fs = hdfs dfs
- Shell 常用命令介绍
-ls
使用方法: hadoop fs -ls [-h] [-R]
功能:显示文件、 目录信息
-mkdir
使用方法: hadoop fs -mkdir [-P]
功能:在hdfs上创建目录, -p表示会创建路径中的各级父目录
-put
使用方法:hadoop fs -put [-f] [-p] [-| …].
功能:将单个src或者多个srcs从本地(也就是该linux机上的文件)文件系统复制到目标文件系统。
-p:保存访问和修改时间, 所有权和权限
-f:覆盖目的地(如果已经存在)
示例: hadoop fs -put -f localfile1 localfile2 /user/hadoop/hadoopdir
-get
使用方法:hadoop fs -get [-ignorecrc] [-crc] [-p] [-f]
-ignorecrc: 跳过对下载文件的CRC检查
-crc:为下载的文件写CRC校验和
-appendToFile
这里是追加, 跟修改有区别
使用方法:hadoop fs -appendToFile …
功能:追加一个文件到已经存在的文件末尾
示例: hadoop fs -appendToFile localfile /hadoop/hadoopfile
这里是将本地的文件追加到HDFS上的一个文件
-cat
使用方法:hadoop fs -cat [-ignoreCrc] URI [URI …]
功能: 显示文件内容到stdout
-tail
使用方法: handoop fs -tail [-f] URI
功能:将文件的最后一千字节内容显示到stdout
-f 选项将在文件增长时输出附加数据
-chgrp
使用方法:hadoop fs -chgrp [-R] GROUP URI [URI…]
功能:更改文件组的关联。用户必须是文件的所有者。否则是超级用户。
-R:将使改变在目录结构下递归进行。
示例: hadoop fs -chgrp othergroup /hadoophadoopfile
-chmod
功能:改变文件的权限。
-R:将使改变在目录结构下递归进行
示例:hadoop fs -chmod 666 /hadoop/hadoopfile
-chown
功能:改变文件的拥有者。
-R:将使改变在目录结构下递归进行
-copyFromLocal(不常用 一般用-put)
使用方法:hadoop fs -copyFromLocal URI
功能:从本地文件系统中拷贝文件到hdfs路径去
示例;hadoop fs -copyFromLocal /root/1.txt /
-copyToLocal(不常用 一般用-get)
功能:从hdfs拷贝到本地
示例:hadoop fs -copyToLocal /aaa/jdk.tar.gz /root/
-cp
功能: 从hdfs的一个路径拷贝hdfs拷贝到hdfs的另一个路径
示例:hadoop fs -cp /cont1/a.tar.gz /cont2/a.tar.gz.2
-mv
功能:在hdfs目录中移动文件
示例:hadoop fs -mv /cont/a.tar.gz /
-getmerge
功能:合并下载多个文件
示例:比如hdfs的目录/cont/下有多个文件:log.1 log.2 log.3 …
hdfs fs -getmerge /contlog.* ./log.sum
-df
功能:统计文件系统的可用空间信息
示例:hadoop fs -df -h /
-du
功能:显示目录中所有文件大小, 当只指定一个文件时, 显示此文件的大小
示例:hadoop fs -du /user/hadoop/dir1
-setrep
功能:改变一个文件的副本个数。
-R: 选项用于递归改变目录下所有文件的副本系数。
示例:hadoop fs -setrep -w 3 -R /user/hadoop/dir1