hadoop入门 pdf hadoop入门图文

转载

ganmaobuhaowan 2023-11-15 16:54:38

文章标签 hadoop入门 pdf Hadoop java xml 文章分类 Hadoop 大数据

1、Hadoop介绍

Hadoop主要是一个分布式基础架构，用户可以不用了解详细分布式的底层细节实现，只需要编写简单的逻辑程序，便可以实现分布式计算。其大致可以分为三部分：HDFS文件集群、MapReduce数据处理、yarn资源调度集群。

HDFS文件集群：负责文件如何保存读取，例如如何将一个文件分为block，分别存在哪些计算机中？以及读取的时候如何根据namenode的信息在datanode中进行block的读取以及拼接成一个完整的文件；

MapReduce数据处理：Hadoop对数据处理只要有两个方面，一个是map,负责如何进行数据处理，例如一个简单的word count程序，map就是负责将不同的单词作为key,而该词出现的次数作为value进行处理，map一次读取一行，所以说这里map的程序很简单，这里你不用考虑如何进行分布式读取，以及读取了多少个数据，只需要只要你输入的文件格式是什么样的，输出什么样便可以，reduce程序接受map阶段的输出作为它的输入，还是举个例子，比如我收到了上一个阶段的输出，maper1 <hello,1,1,1,1,1,>,<hi,1,1,1>, maper2<hello,1,1,>,<hi,1>,reduce的程序也很简单，就是将hello的次数递归进行累加便可，最后reduce的输出为<hello,7>,<hi,5>。

yarn集群：当你将任务提交了之后，那么这些文件如何进行处理呢？我们的MapReduce程序只是进行了任务的逻辑程序的编写，如何运行呢？怎么分配资源呢？不同的节点怎么都会有我们的逻辑处理程序呢？这里就需要yarn资源调度集群了。

理解一门技术虽好的方式是知道它要解决什么样的问题，如何实现这些问题？因此这时候你可能就对Hadoop有了一个简单的理解，这时候就可以深入的学习了。