这里写自定义目录标题
- 一、 HDFS概述
- 1、HDFS定义
- 2、HDFS的使用场景
- 3、HDFS的组成架构
- 4、HDFS的文件块大小
- 二、HDFS的shell操作
- 1、启动集群
- ==集群规划==
- 3、显示目录信息
- 4、mkdir 创建目录
- 5、-moveFromLocal:从本地剪切粘贴到HDFS
- ==官方命令说明==
- 三、HDFS的客户端操作
- 1、拷贝压缩包 解压到win10电脑上面
- 2、配置环境变量
- 3、创建maven工程,导入依赖
- 4、测试文件下载
- 四、HDFS的数据流
- 1、写数据流程
- 2、读数据流程
一、 HDFS概述
1、HDFS定义
HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
2、HDFS的使用场景
适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。
3、HDFS的组成架构
1、NameNode:
就是master 是一个主管、管理者
- 管理HDFS的名称空间
- 管理副本策略
- 管理数据块映射信息
- 处理客户端的读写请求
2、DataNode
就是slave,namenode下达命令,datanode进行实际的操作
- 存储实际的数据块
- 实行数据块的读/写操作
3、Client
就是客户端
- 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
- 与NameNode交互,获取文件的位置信息;
- 与DataNode交互,读取或者写入数据;
- Client提供一些命令来管理HDFS,比如NameNode格式化;
- Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;
4、Secondary NameNode
并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务
- 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
- 在紧急情况下,可辅助恢复NameNode。
4、HDFS的文件块大小
hdfs的文件块必须设置的合适,如果文件块设置太小会增加寻址时间,程序一直在找块的开始位置
如果文件块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间,导致程序处理这块数据会非常慢
HDFS块的大小设置主要取决于磁盘的传输速率
二、HDFS的shell操作
1、启动集群
#在hadoop101上面启动hdfs
[root@hadoop101 hadoop]# sbin/start-dfs.sh
#在hadoop102上面启动yarn
[root@hadoop102 hadoop-2.7.2]# sbin/start-yarn.sh
集群规划
hadoop101 | hadoop102 | hadoop103 | |
HDFS | NameNode | DataNode | SecondaryNameNode DataNode |
YARN | NodeManager | ResourceManager | NodeManager |
## 2、help命令
[root@hadoop101 hadoop]# hadoop fs -help rm
3、显示目录信息
[root@hadoop101 hadoop]# hadoop fs -ls /
4、mkdir 创建目录
[root@hadoop101 hadoop]# hadoop fs -mkdir -p /sanguo/shuguo
5、-moveFromLocal:从本地剪切粘贴到HDFS
[root@hadoop101 hadoop]# touch kongming.txt
[root@hadoop101 hadoop]# hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo
官方命令说明
三、HDFS的客户端操作
1、拷贝压缩包 解压到win10电脑上面
2、配置环境变量
HADOOP_HOME
Path
3、创建maven工程,导入依赖
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>RELEASE</version>
</dependency>
<dependency>
<groupId>org.apache.logging.log4j</groupId>
<artifactId>log4j-core</artifactId>
<version>2.8.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.2</version>
</dependency>
</dependencies>
4、测试文件下载
@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{
// 1 获取文件系统
Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://hadoop101:9000"), configuration, "root");
// 2 执行下载操作
// boolean delSrc 指是否将原文件删除
// Path src 指要下载的文件路径
// Path dst 指将文件下载到的路径
// boolean useRawLocalFileSystem 是否开启文件校验
fs.copyToLocalFile(false, new Path("/banzhang.txt"), new Path("e:/banhua.txt"), true);
// 3 关闭资源
fs.close();
四、HDFS的数据流
1、写数据流程
- 1)客户端通过Distributed
FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 - 2)NameNode返回是否可以上传。 -
- 3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
- 4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。
- 5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
- 6)dn1、dn2、dn3逐级应答客户端。
- 7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。
- 8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。
2、读数据流程
- 1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。
- 2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。
- 3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。
- 4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。
分割线
文章中如果有什么错误的地方,欢迎留言指出,感谢!!!
-----end-----