分布式计算:顾名思义,就是以分布式的方法对数据进行统计,得到需要的结果
分为两类:
分散->汇总模式
中心调度->步骤执行模式
MapReduce
分布式计算框架——MapReduce
YARN——分布式资源调度
MapReduce是基于YARN运行的
资源调度
对服务器上的资源进行划分,对程序执行申请制度,需要多少申请多少
YARN架构
YARN也是主从结构,其与HDFS的区别如下图所示
YARN容器
TARN辅助角色
Web应用代理
开启代理服务器,可以提高YARN在开放网络的安全性,但是不是绝对的安全
JobHistorySever历史服务器
部署说明
MapReduce是运行在YARN中的,不需要启动独立进程
集群规划
配置环境
vim mapred_env.sh添加如下环境变量
后修改 mapred-site.xml文件
集群启动
提交MapReduce程序到YARN执行