1. 什么是Hadoop
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
2)主要解决,海量数据的存储和海量数据的分析计算问题。
2. Hadoop三大发行版本
Apache Cloudera Hortonworks
1)Apache是最原始版本,适合入门学习
2)Cloudera CDH 企业使用最多 兼容性,安全性,稳定性最好
3)Hortonworks 文档较好
3. Hadoop的优势
1)高可靠性:多个数据副本,节点故障可以重新分布处理
2)高扩展性:集群间分配任务数据,方便扩展
3)高效性:并行工作,任务处理速度快
4)高容错性:自动保存副本数据
4. Hadoop的组成
1)HDFS 高可靠、高吞吐量的分布式存储系统
离线并行计算框架
3)YARN 任务调度和资源管理
4)Common:支持其他模块的工具
5. HDFS框架
1)Namenode:存储文件的元数据,每个文件的块列表和块所在的DataNode
元数据:文件名 文件目录结构 文件属性(生成时间,副本数,文件权限)
2)Secondary Namenode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照
3)DataNode:在本地文件系统中存储文件块数据,以及块数据的校验和
6. YARN框架
1)ResourceManager:资源分配和调度,处理客户端请求,启动/监控ApplicationMaster,监控NodeManager。(所有节点间的)
2)NodeManager:单个节点上的资源管理,处理RM的命令,处理AM的命令
3)ApplicationMaster:数据切分,为应用程序申请资源,并分配给内部任务,任务监控和容错
4)Container:对任务运行环境进行抽象,封装CPU、内存等多维资源以及环境变量、启动命令等任务运行信息
7. MapReduce框架
1)Map阶段:并行处理
2)Reduce阶段:对Map结果进行汇总
8. 大数据技术生态体系