这里写自定义目录标题

  • 一、 HDFS概述
  • 1、HDFS定义
  • 2、HDFS的使用场景
  • 3、HDFS的组成架构
  • 4、HDFS的文件块大小
  • 二、HDFS的shell操作
  • 1、启动集群
  • ==集群规划==
  • 3、显示目录信息
  • 4、mkdir 创建目录
  • 5、-moveFromLocal:从本地剪切粘贴到HDFS
  • ==官方命令说明==
  • 三、HDFS的客户端操作
  • 1、拷贝压缩包 解压到win10电脑上面
  • 2、配置环境变量
  • 3、创建maven工程,导入依赖
  • 4、测试文件下载
  • 四、HDFS的数据流
  • 1、写数据流程
  • 2、读数据流程


一、 HDFS概述

1、HDFS定义

HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

2、HDFS的使用场景

适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

3、HDFS的组成架构

hadoop 大图像处理 hadoop大数据处理实战_hadoop 大图像处理


1、NameNode

就是master 是一个主管、管理者

  • 管理HDFS的名称空间
  • 管理副本策略
  • 管理数据块映射信息
  • 处理客户端的读写请求

2、DataNode
就是slave,namenode下达命令,datanode进行实际的操作

  • 存储实际的数据块
  • 实行数据块的读/写操作

3、Client
就是客户端

  • 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
  • 与NameNode交互,获取文件的位置信息;
  • 与DataNode交互,读取或者写入数据;
  • Client提供一些命令来管理HDFS,比如NameNode格式化;
  • Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;

4、Secondary NameNode
并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务

  • 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
  • 在紧急情况下,可辅助恢复NameNode。

4、HDFS的文件块大小

hadoop 大图像处理 hadoop大数据处理实战_大数据_02


hdfs的文件块必须设置的合适,如果文件块设置太小会增加寻址时间,程序一直在找块的开始位置

如果文件块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间,导致程序处理这块数据会非常慢

HDFS块的大小设置主要取决于磁盘的传输速率

二、HDFS的shell操作

1、启动集群

#在hadoop101上面启动hdfs
[root@hadoop101 hadoop]# sbin/start-dfs.sh
#在hadoop102上面启动yarn
[root@hadoop102 hadoop-2.7.2]# sbin/start-yarn.sh

集群规划


hadoop101

hadoop102

hadoop103

HDFS

NameNode

DataNode

SecondaryNameNode       DataNode

YARN

NodeManager

ResourceManager

NodeManager

## 2、help命令

[root@hadoop101 hadoop]# hadoop fs -help rm

3、显示目录信息

[root@hadoop101 hadoop]# hadoop fs -ls /

4、mkdir 创建目录

[root@hadoop101 hadoop]# hadoop fs -mkdir -p /sanguo/shuguo

5、-moveFromLocal:从本地剪切粘贴到HDFS

[root@hadoop101 hadoop]# touch kongming.txt
[root@hadoop101 hadoop]# hadoop fs  -moveFromLocal  ./kongming.txt /sanguo/shuguo

官方命令说明

hadoop关于shell命令操作的官方文档



三、HDFS的客户端操作

1、拷贝压缩包 解压到win10电脑上面

hadoop 大图像处理 hadoop大数据处理实战_大数据_03

2、配置环境变量

HADOOP_HOME
Path

3、创建maven工程,导入依赖

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

4、测试文件下载

@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{

		// 1 获取文件系统
		Configuration configuration = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://hadoop101:9000"), configuration, "root");
		
		// 2 执行下载操作
		// boolean delSrc 指是否将原文件删除
		// Path src 指要下载的文件路径
		// Path dst 指将文件下载到的路径
		// boolean useRawLocalFileSystem 是否开启文件校验
		fs.copyToLocalFile(false, new Path("/banzhang.txt"), new Path("e:/banhua.txt"), true);
		
		// 3 关闭资源
		fs.close();

四、HDFS的数据流

1、写数据流程

hadoop 大图像处理 hadoop大数据处理实战_HDFS_04

  • 1)客户端通过Distributed
    FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。
  • 2)NameNode返回是否可以上传。 -
  • 3)客户端请求第一个 Block上传到哪几个DataNode服务器上。
  • 4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。
  • 5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
  • 6)dn1、dn2、dn3逐级应答客户端。
  • 7)客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。
  • 8)当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。

2、读数据流程

hadoop 大图像处理 hadoop大数据处理实战_hadoop_05

  • 1)客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。
  • 2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。
  • 3)DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。
  • 4)客户端以Packet为单位接收,先在本地缓存,然后写入目标文件。

分割线


文章中如果有什么错误的地方,欢迎留言指出,感谢!!!
-----end-----