基于hadoop的音乐管理系统研究与实现

转载

mob6454cc6f8e48 2024-09-13 22:03:36

文章标签 服务器 HDFS Hadoop 文章分类 Hadoop 大数据

基于hadoop的音乐管理系统研究与实现_Hadoop

HDFS设计理念之一就是让它能运行在普通的硬件之上，即便硬件出现故障，也可以通过容错策略来保证数据的高可用。

Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。通过Hadoop，可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群，提供大数据量的存储和处理能力。

MapReduce
Google提出此架构，MapReduce通过Map（映射）和Reduce（化简）来实现大规模数据（TB级）的并行计算。可以简单理解为，通过Map（映射）函数，把一组键值对映射成一组新的键值对；指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。
使用大量服务器来执行Map程序，并将待处理的庞大数据切割成很多的小份数据，由每台服务器分别执行Map程序来处理分配到的那一小段数据，接着再将每一个Map程序分析出来的结果，透过Reduce程序进行合并，最后则汇整出完整的结果。
MapReduce是Hadoop分布式计算的关键技术，MapReduce程序的执行过程如下：

基于hadoop的音乐管理系统研究与实现_HDFS_02

MapReduce的运作方式就像快递公司一样。物流部门会将发往各地的包裹先运送到各地的物流分站，再由分站派出进行派送；快递员等每个包裹的用户签单后将数据反馈给系统汇总，完成整个快递流程。在这里，每个快递员都会负责配送，所执行的动作大致相同，且只负责少量的包裹，最后由物流公司的系统进行汇总。

在Hadoop集群架构中，服务器依据用途可分成Master节点和Worker节点，Master负责分配任务，而Worker负责执行任务。

Hadoop中的Master与Worker(slave)

Hadoop运算集群中的服务器依用途分成Master节点和Worker节点。

Master节点中含有JobTracker、NameNode、TaskTracker和DataNode程序；Worker节点含有TaskTracker和DataNode。

在Master节点的服务器中会执行两套程序：一个是负责安排MapReduce运算层任务的JobTracker，以及负责管理HDFS数据层的NameNode程序。
在Worker节点的服务器中也有两套程序：接受JobTracker指挥，负责执行运算层任务的是TaskTracker程序，与NameNode对应的则是DataNode程序，负责执行数据读写操作以及执行NameNode的副本策略。

基于hadoop的音乐管理系统研究与实现_服务器_03

Master节点上的JobTracker程序会将Map和Reduce程序的执行工作指派给Worker服务器上的TaskTracker程序，由TaskTracker负责执行Map和Reduce工作，并将运算结果回复给Master节点上的JobTracker。
在HDFS数据层上，NameNode负责管理和维护HDFS的名称空间、并且控制档案的任何读写动作，同时NameNode会将要处理的数据切割成一个个档案区块（Block），每个区块是64MB，例如1GB的数据就会切割成16个档案区块。NameNode还会决定每一份档案区块要建立多少个副本，一般来说，一个档案区块总共会复制成3份，并且会分散储存到3个不同Worker服务器的DataNode程序中管理，只要其中任何一份档案区块遗失或损坏，NameNode会自动寻找位于其他DataNode上的副本来回复，维持3份的副本策略。

基于hadoop的音乐管理系统研究与实现_HDFS_04

namenode、jobtracker可以与secondary namenode不在同一个节点上，但namenode和jobtracker是在同一台机器上。

在一套Hadoop集群中，分配MapReduce任务的JobTracker只有1个，而TaskTracker可以有很多个。同样地，负责管理HDFS文件系统的NameNode也只有一个，和JobTracker同样位于Master节点中，而DataNode可以有很多个。Master节点中除了有JobTracker和NameNode以外，也会有TaskTracker和DataNode程序，也就是说Master节点的服务器也可以在本地端扮演Worker角色的工作。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。