Hadoop 是什么?
适合海量数据的分布式存储计算平台
1.分布式
2.平台
Hadoop的生态系统
HDFS的架构(存储)
主从结构(相当于项目经理):1)主节点:只有一个,NameNode;2)从结构:有很多个,DataNodes
NameNode负责:1)接收用户操作请求 2)维护文件的目录结构 3)管理文件与block(块)之间的关系:block与DataNode之间的关系
DataNodes负责(相当于项目工程师):1)存储文件 2)文件被分成block存储在磁盘上 3)为保证数据安全,文件会有多个副本:廉价的服务器,发生故障的可能性高,为了提高安全性和整个系统的稳定性,采用了副本机制;例如10G的电影存储时就可能是30G
MapReduce的架构(计算)
主从结构:1)主节点:只有一个,JobTracker,正常情况下位于NameNode那台机上 2)从节点:有很多个,TaskTrackers
JobTracker负责:1)接收提出的计算任务 2)把任务分给TaskTrackers执行 3)监控TaskTracker的执行情况:重新部署,透明切换
TaskTrackers负责:执行JobTracker分配的计算任务
Hadoop的特点:1)扩展 2)成本低:普通机器即可 3)效率高:并行计算 4)可靠:副本机制,任务失败后自动地重新部署分配任务
Hadoop的集群物理分布结构


















