要实现对大数据的处理,大数据处理技术是最关键的部分,而行业发展所需要的专业人才,就是掌握大数据技术,能够解决实际数据问题的人才。主流的大数据技术框架当中,Hadoop的通用,是得到行业普遍认可的。今天的大数据入门分享,我们主要来聊聊Hadoop核心架构。

Hadoop的高可靠性、高扩展性、高效性、高容错性,是Hadoop的优势所在,在十多年的发展历程当中,Hadoop依然被行业认可,占据着重要的市场地位。
 

haddop架构 hadoop框架结构详解_Hadoop

基于Hadoop基础架构,众多组件形成了Hadoop生态,集海量数据存储、计算于一体,包括统一的数据采集中心、数据计算和存储中心、数据治理中心、运维管控中心、和应用中心等。

Hadoop核心架构,分为四个模块——

Hadoop通用:提供Hadoop模块所需要的Java类库和工具。

Hadoop YARN:提供任务调度和集群资源管理功能。

Hadoop HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问方式。

Hadoop MapReduce:大数据离线计算引擎,用于大规模数据集的并行处理。

Hadoop如何工作?

第一阶段:用户/应用程序能够提交一项作业给Hadoop(hadoop作业客户端),需要指定以下条目进行后续处理。

(1)分布式系统中输入和输出文件的位置。

(2)以jar文件形式存在的java类,包含映射(Map)和缩减(Reduce)功能的实现。

(3)通过设定不同的作业参数来进行作业配置。

第二阶段:Hadoop作业客户端提交一个作业(jar/可执行文件等)和配置给JobTracker。然后,JobTracker负责将软件/配置分发给从属服务器、调度任务,并进行监控,向作业客户端提供状态和运行诊断信息。

第三阶段:不同节点上的TaskTracker根据每一个MapReduce的实现运行任务,减量功能的输出被存储到文件系统的输出文件中。

关于大数据入门学习,Hadoop核心架构,以上就是简单的介绍了。Hadoop在大数据技术框架当中的地位重要,学大数据必学Hadoop,还要对Hadoop核心技术框架掌握扎实才行。