• Hadoop 是什么?

    适合海量数据的分布式存储计算平台

   1.分布式

   2.平台

  • Hadoop的生态系统

从技术角度思考Hadoop是什么_Hadoop

  • HDFS的架构(存储)


    • 主从结构(相当于项目经理):1)主节点:只有一个,NameNode;2)从结构:有很多个,DataNodes

    • NameNode负责:1)接收用户操作请求 2)维护文件的目录结构 3)管理文件与block(块)之间的关系:block与DataNode之间的关系

    • DataNodes负责(相当于项目工程师):1)存储文件 2)文件被分成block存储在磁盘上 3)为保证数据安全,文件会有多个副本:廉价的服务器,发生故障的可能性高,为了提高安全性和整个系统的稳定性,采用了副本机制;例如10G的电影存储时就可能是30G

  • MapReduce的架构(计算)

    • 主从结构:1)主节点:只有一个,JobTracker,正常情况下位于NameNode那台机上 2)从节点:有很多个,TaskTrackers

    • JobTracker负责:1)接收提出的计算任务 2)把任务分给TaskTrackers执行 3)监控TaskTracker的执行情况:重新部署,透明切换

    • TaskTrackers负责:执行JobTracker分配的计算任务

  • Hadoop的特点:1)扩展 2)成本低:普通机器即可 3)效率高:并行计算 4)可靠:副本机制,任务失败后自动地重新部署分配任务

  • Hadoop的集群物理分布结构

从技术角度思考Hadoop是什么_Hadoop  _02