作为最早开源的大数据框架,Hadoop经历了相当长的一段黄金发展时期,在大数据的发展当中,Hadoop也在随着大趋势不断优化调整,但是分布式架构始终是不变的主旨。今天的大数据开发分享,我们来对Hadoop分布式架构做一个具体的讲解。

Hadoop是Apache软件基金会下的一个开源分布式计算平台,在业内应用非常广泛,可以说是大数据的代名词,也是分布式计算架构的鼻祖。几乎所有主流厂商都围绕Hadoop进行开发和提供服务,如谷歌、百度、思科、华为、阿里巴巴、微软都支持Hadoop。
 

Hadoop分布式任务 hadoop分布式架构_Hadoop

Hadoop的原理,简单来说就是将一个大型的任务切割成多个部分给多台计算机,让每台计算机处理其中的一部分。这种运行在分布式计算存储的架构所带来的好处是明显的。

在硬盘存储层面,Hadoop的数据处理工作借助HDFS,将架构下每一台计算机中的硬盘资源汇聚起来,无论是存储计算还是调用,都可以视为一块硬盘使用,就像计算机中的C盘、D盘。

在资源管理层面,Hadoop使用集群管理和调度软件YARN,相当于计算机的Windows操作系统,进行资源的调度管理。

在计算处理层面,Hadoop利用MapReduce计算框架进行计算编程,将复杂的、运行在大规模集群上的并行计算过程高度抽象成两个函数——Map和Reduce。

经过多年的发展,Hadoop生态系统不断完善和成熟,除了核心的HDFS、YARN和MapReduce之外,还包括ZooKeeper、HBase、Hive、Pig、Mathout、Flume、Sqoop、Ambari等功能组件。

这种架构大幅提升了计算存储性能,降低计算平台的硬件投入成本。然而,任何事物都不是完美的。

Hadoop的缺点在于,由于计算过程放在硬盘上,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存快,尤其是在使用Hadoop进行迭代计算时,非常耗资源,且在开发过程中需要编写不少相对底层的代码,不够高效。

关于大数据开发,Hadoop分布式架构,以上就为大家做了一个简单的介绍了。Hadoop在大数据当中的地位仍然很重要,掌握Hadoop技术,仍然是入行的基本要求之一。