Hadoop分布式任务 hadoop分布式架构

转载

mob6454cc747bda 2023-08-07 17:31:06

文章标签 Hadoop分布式任务分布式大数据 hadoop Hadoop 文章分类 Hadoop 大数据

作为最早开源的大数据框架，Hadoop经历了相当长的一段黄金发展时期，在大数据的发展当中，Hadoop也在随着大趋势不断优化调整，但是分布式架构始终是不变的主旨。今天的大数据开发分享，我们来对Hadoop分布式架构做一个具体的讲解。

Hadoop是Apache软件基金会下的一个开源分布式计算平台，在业内应用非常广泛，可以说是大数据的代名词，也是分布式计算架构的鼻祖。几乎所有主流厂商都围绕Hadoop进行开发和提供服务，如谷歌、百度、思科、华为、阿里巴巴、微软都支持Hadoop。

Hadoop分布式任务 hadoop分布式架构_Hadoop

Hadoop的原理，简单来说就是将一个大型的任务切割成多个部分给多台计算机，让每台计算机处理其中的一部分。这种运行在分布式计算存储的架构所带来的好处是明显的。

在硬盘存储层面，Hadoop的数据处理工作借助HDFS，将架构下每一台计算机中的硬盘资源汇聚起来，无论是存储计算还是调用，都可以视为一块硬盘使用，就像计算机中的C盘、D盘。

在资源管理层面，Hadoop使用集群管理和调度软件YARN，相当于计算机的Windows操作系统，进行资源的调度管理。

在计算处理层面，Hadoop利用MapReduce计算框架进行计算编程，将复杂的、运行在大规模集群上的并行计算过程高度抽象成两个函数——Map和Reduce。

经过多年的发展，Hadoop生态系统不断完善和成熟，除了核心的HDFS、YARN和MapReduce之外，还包括ZooKeeper、HBase、Hive、Pig、Mathout、Flume、Sqoop、Ambari等功能组件。

这种架构大幅提升了计算存储性能，降低计算平台的硬件投入成本。然而，任何事物都不是完美的。

Hadoop的缺点在于，由于计算过程放在硬盘上，受制于硬件条件限制，数据的吞吐和处理速度明显不如使用内存快，尤其是在使用Hadoop进行迭代计算时，非常耗资源，且在开发过程中需要编写不少相对底层的代码，不够高效。

关于大数据开发，Hadoop分布式架构，以上就为大家做了一个简单的介绍了。Hadoop在大数据当中的地位仍然很重要，掌握Hadoop技术，仍然是入行的基本要求之一。