hdfs 支持 nfs hdfs du

转载

mob6454cc73e9a6 2024-03-25 16:23:58

文章标签 hdfs 支持 nfs hadoop HDFS 文件系统 文章分类 运维

1、HDFS基本概念

什么是HDFS

HDFS是Hadoop Distribute File System的简称，是Hadoop分布式文件系统，是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。

分布式文件系统解决的问题是大数据存储，它们是横跨在多台计算机上的存储。

框架图

hdfs 支持 nfs hdfs du_文件系统

HDFS设计目标

1）硬件故障是常态。HDFS将有成百上千的服务器组成，每一个组成部分都有可能出现故障，因此故障的检测和自动快速恢复是HDFS的核心架构目标。

2）HDFS上的应用与一般的应用不同，它们主要是以流式读取数据。HDFS被设计成适合批量处理，而不是用户交互式，相较于数据访问的访问时间，更注重数据访问的高吞吐量。

3）典型的HDFS文件大小是GB到TB的级别，所以， HDFS被调整成支持大文件。它应该提供很高的聚合数据宽带，一个集群中支持数百个节点，一个集群中还支持千万个级别的文件。

4）大部分HDFS应用对文件的要求是write-one-read-many访问模型。一个文件一旦创建、写入、关闭后就不修改，使高吞吐量的数据访问成为可能。

5）移动计算的代价比移动数据的代价低。一个应用请求的计算，离它操作的数据越近越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附件，比将数据移动到应用所在显然更好。（简单来说，就是数据不动，将要运行的代码移动，代码离数据越近越好，一般的我们都是代码不动，将数据读取进来，这里不太一样）

6）在异构的硬件和软件平台上的可移植性。这将推动大数据集的应用更广泛的采用HDFS作为平台。

2、HDFS重要特征

首先，它是一个文件系统，用于用于存储文件，通过统一的命名空间目录树来定为文件。

其次，它是分布式的，由很多台服务器联合起来实现其功能，集群中的服务器有各自的角色。

master/slave架构

HDFS采用master/slave架构。一般一个HDFS集群有一个Namedone和一定数目的Datanode组成。 Namenode是HDFS集群主节点， Datanode是HDFS集群从节点，两者各司其职，共同协调完成分布式文件存储服务。

分块存储

HDFS中的文件在物理上是分块存储（block）的，块的大小可以通过配置参数来规定，默认在hadoop3.x中是128M。

hdfs 支持 nfs hdfs du_HDFS_02

名字空间

HDFS支持传统的层次型文件组织结构，用户或者应用程序可以创建目录，然后将文件保存在这些目录里，文件系统命名空间层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或者重命名文件。

Namenode负责维护文件系统的命名空间。任何对文件系统名字空间或者属性的修改都会被Namenode记录下来。

HDFS会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件。

Namenode元数据管理

我们把目录结构及文件分块位置信息叫做元数据。 Namenode负责维护整个HDFS文件系统的目录树结构，以及每一个文件对应的block块信息（block的id及所在的datanode服务器）。

Datanode数据存储

文件的各个block的具体存储管理有datanode节点承担，每一个block都可以在多个datanode上。 Datanode需要定时向Namenode汇报自己持有的block信息。
存储多个副本（副本数量可以通过参数设置dfs.replication。默认3）

副本机制

为了容错，文件的所有block都会有副本数，每个文件的block大小和副本系数都是可配置的，应用程序可以指定某个文件的副本系数，副本系数可以在文件创建的时候指定也可以在之后改变。

一次写入，多次读出

HDFS适合一次写入多次读出， 且不支持文件的修改。
正因为如此， HDFS时候用来做大数据分析的底层存储服务，并不适合用来做网盘，修改不方便， 延迟大，网络开销大，成本高，设计时是要求有高吞吐量的。

3、HDFS基本操作

Shell命令行客户端

Hadoop提供了文件系统的shell命令行客户端的shell命令行客户端，使用方法如下：
hadoop fs

文件系统shell包括与Hadoop分布式文件系统（HDFS）以及Hadoop支持的其他文件系统（如本体FS， HFTP FS， S3 FS等）直接交互的各种类似shell的命令，所有FS shell 命令都将路径URL作为参数。

URL格式为 scheme://authority/path。对于HDFS，该scheme是hdfs，对于本地FS是file。 scheme和authority是可选的。如未指定，则使用默认配置中指定的默认方案。

对于HDFS，命令示例如下：
hadoop fs -ls hdfs://namenode:host/parent/child
hadoop fs -ls /parent/child #fs.defaultFS中有配置

对于本地文件系统，命令示例如下：
hadoop fs -ls fill:///rrot/

如果使用的文件系统时HDFS，则使用hdfs dfs也是可以的，此时：
hadoop fs = hdfs dfs

Shell 常用命令介绍

-ls

使用方法： hadoop fs -ls [-h] [-R]

功能：显示文件、目录信息

-mkdir

使用方法： hadoop fs -mkdir [-P]

功能：在hdfs上创建目录， -p表示会创建路径中的各级父目录

-put

使用方法：hadoop fs -put [-f] [-p] [-| …].

功能：将单个src或者多个srcs从本地（也就是该linux机上的文件）文件系统复制到目标文件系统。

-p：保存访问和修改时间，所有权和权限

-f:覆盖目的地（如果已经存在）

示例： hadoop fs -put -f localfile1 localfile2 /user/hadoop/hadoopdir

-get

使用方法：hadoop fs -get [-ignorecrc] [-crc] [-p] [-f]

-ignorecrc: 跳过对下载文件的CRC检查

-crc：为下载的文件写CRC校验和

-appendToFile

这里是追加，跟修改有区别

使用方法：hadoop fs -appendToFile …

功能：追加一个文件到已经存在的文件末尾

示例： hadoop fs -appendToFile localfile /hadoop/hadoopfile

这里是将本地的文件追加到HDFS上的一个文件

-cat

使用方法：hadoop fs -cat [-ignoreCrc] URI [URI …]

功能：显示文件内容到stdout

-tail

使用方法： handoop fs -tail [-f] URI

功能：将文件的最后一千字节内容显示到stdout

-f 选项将在文件增长时输出附加数据

-chgrp

使用方法：hadoop fs -chgrp [-R] GROUP URI [URI…]

功能：更改文件组的关联。用户必须是文件的所有者。否则是超级用户。

-R：将使改变在目录结构下递归进行。

示例： hadoop fs -chgrp othergroup /hadoophadoopfile

-chmod

功能：改变文件的权限。

-R：将使改变在目录结构下递归进行

示例：hadoop fs -chmod 666 /hadoop/hadoopfile

-chown

功能：改变文件的拥有者。

-R：将使改变在目录结构下递归进行

-copyFromLocal（不常用一般用-put）

使用方法：hadoop fs -copyFromLocal URI

功能：从本地文件系统中拷贝文件到hdfs路径去

示例；hadoop fs -copyFromLocal /root/1.txt /

-copyToLocal（不常用一般用-get）

功能：从hdfs拷贝到本地

示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz /root/

-cp

功能：从hdfs的一个路径拷贝hdfs拷贝到hdfs的另一个路径

示例：hadoop fs -cp /cont1/a.tar.gz /cont2/a.tar.gz.2

-mv

功能：在hdfs目录中移动文件

示例：hadoop fs -mv /cont/a.tar.gz /

-getmerge

功能：合并下载多个文件

示例：比如hdfs的目录/cont/下有多个文件：log.1 log.2 log.3 …
hdfs fs -getmerge /contlog.* ./log.sum

-df

功能：统计文件系统的可用空间信息

示例：hadoop fs -df -h /

-du

功能：显示目录中所有文件大小，当只指定一个文件时，显示此文件的大小

示例：hadoop fs -du /user/hadoop/dir1

-setrep

功能：改变一个文件的副本个数。

-R：选项用于递归改变目录下所有文件的副本系数。

示例：hadoop fs -setrep -w 3 -R /user/hadoop/dir1

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：服务器把目录设置成容器可读目录文件服务器目录树

下一篇：freemarker js 接收数组 html接收json数据

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯