目录
- 一、准备模板机(最小化安装)
- 二、配置一台纯净的模板机
- 修改主机名
- 固定IP地址
- 通过yum安装方式安装必要的软件
- 关闭防火墙且禁止自启
- 修改hosts映射文件
- 创建普通用户 并让他能用sudo命令
- 在/opt下创建software和module
- 完成
- 三、搭建完全分布式运行模式
- 3.1克隆第一台机器hadoop102 完成相应配置
- 建议统一管理好
- 修改hadoop102的主机名和IP地址
- 之后 就可以用Xshell登录了
- 在102上安装jdk并配置环境变量
- 在102上安装hadoop
- hadoop目录结构
- 本地模式测试
- 3.2克隆hadoop103 hadoop104 完成相应配置
- 修改主机名和IP
- 用scp分发102的软件给103和104
- 编写集群分发脚本xsync
- 分发my_env给103 104
- 3.3Hadoop集群规划
- 3.4修改Hadoop配置文件
- Hadoop配置文件介绍
- coresite.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
- 分发配置文件到103 104
- 3.5群起/群停集群
- 配置ssh免密登录
- 配置workers文件
- 格式化
- 群起集群
- 群停集群
- 查看Web端界面
- 完全分布式模式测试
- 单点启动的指令
一、准备模板机(最小化安装)
安装Linux系统参考:安装Linux操作系统详细步骤(附VMware16+CentOS7下载地址)
- 模板机只是为了将来克隆使用 这台磨板机安装之后 做常规化的统一配置 比如关闭防火墙 静态IP 安装必要的软件等
- 为了更契合实际开发场景 需要创建一个普通用户 所以也需要配置普通用户能够使用sudo获得root权限
- 把磨板机配置好 克隆三台出来 作为集群真正需要的机器
二、配置一台纯净的模板机
修改主机名
vi /ect/hostname
#主机名改完要重启才会生效 可以用hostname指令看看当前主机名是什么
固定IP地址
vi /etc/sysconfig/network-scripts/ifcfg-ens33
systemctl restart network #重启网络服务 就会生效
完成这些配置后 接下来的操作 就可以用xshell远程连接 最小化安装用着还是很别扭的
通过yum安装方式安装必要的软件
分别指令下面两条命令
yum install -y epel-release
yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git
关闭防火墙且禁止自启
systemctl stop firewalld
systemctl disable firewalld
修改hosts映射文件
改Windows为了Xshell连接能用主机名
改Linux 因为不同主机之间的通信 还是希望用主机名来通信而不是IP地址 vim /etc/hosts
创建普通用户 并让他能用sudo命令
这里还是要在root用户下的
在/opt下创建software和module
software放软件安装包
然后把软件解压到module里
修改所有者和所属组 因为前面说了 后面会用普通用户zcy来登录
完成
至此 纯净模板机就配置好了 接下来 他的作用就是克隆新的机器 然后完成对应的配置 开始搭建Hadoop集群
三、搭建完全分布式运行模式
3.1克隆第一台机器hadoop102 完成相应配置
建议统一管理好
- 在hadoop102上 先安装一些必要的软件比如jdk hadoop 配置好hadoop环境 先了解一下本地模式
- 然后注意 这里103 104机器 继续基于模板机来克隆 而不是基于hadoop102去克隆
- 然后通过102 用Linux提供的分发技术 把102配置好的东西分发给104 103
克隆可以参考:
VMware16如何克隆虚拟机
修改hadoop102的主机名和IP地址
主机名改成hadoop102
IP地址改成.162
改完记得reboot才会生效
之后 就可以用Xshell登录了
在102上安装jdk并配置环境变量
先把两个安装包传输到software下
解压jdk到上一层的module下 tar -zxvf jdk-8u212-linux-x64.tar.gz -C …/module/
配置jdk的环境变量 vim /etc/profile
配置profile.sh 先 cd /etc/profile.d/
重新加载一下/etc/profile 环境变量就会生效 (我曾经有一个疑问 为什么不是加载profile.d 会看前面才发现 profile它里面有代码来读取到profile.h下面的sh脚本)
在102上安装hadoop
先解压到module
tar -zxvf hadoop-3.1.3.tar.gz -C ../module/
sudo vim /etc/profile.d/my_env.sh
重新加载一下环境变量生效(重启也可以)
hadoop目录结构
- bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
- etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
- lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
- sbin目录:存放启动或停止Hadoop相关服务的脚本
- share目录:存放Hadoop的依赖jar包、文档、和官方案例
本地模式测试
Hadoop的运行模式介绍:
- 本地模式:hadoop默认安装后启动就是本地模式 就是将来的数据存在Linux本地并且运行MR程序的时候也是在本地机器上运行
- 伪分布式模式:伪分布式其实就只在一台机器上启动HDFS集群 启动YARN集群 并且数据存在HDFS集群上 以及运行MR程序也是在YARN上运行 计算后的结果也是输出到HDFS上 本质上就是利用一台服务器中多个java进程去模拟多个服务
- 完全分布式:完全分布式其实就是多台机器上分别启动HDFS集群 启动YARN集群 并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行 计算后的结果也是输出到HDFS上
上面安装好之后
就可以跑本地模式了
3.2克隆hadoop103 hadoop104 完成相应配置
修改主机名和IP
克隆之后 先修改IP和主机名 再用Xshell连接
hadoop103的主机名改成hadoop103 IPADDR改成.163 hadoop104的主机名改成hadoop104 IPADDR改成.164 记得reboot生效 改完就可以用Xshell登录了 各服务器之间也能ping通
用scp分发102的软件给103和104
这个时候103 和 104上面都是没有jdk这些软件的 需要从102分发过来 前提:在 hadoop102 hadoop103 hadoop104 都已经创建好 /opt/module 和 /opt/software 两个目录(因为是模板机克隆的 所以我这里是有的)并且已经把这两个目录修改为zcy:zcysudo chown zcy:zcy -R /opt/module 下面 再介绍另一种分发的方法 自己写一个脚本 可以选择这两种方式的中的一种
#在102上让102分发给103
#在hadoop102上执行:
scp -r ./* zcy@hadoop103:/opt/module/
#在103上让102分发给104
#在hadoop103上执行:
scp -r zcy@hadoop102:/opt/module/* zcy@hadoop104:/opt/module/
#当然 也可以在104上拉取102上的东西
编写集群分发脚本xsync
上面的分发方式 存在一定问题:如果集群机器特别多 怎么办? 这时候要是有一个脚本 执行它就遍历所有机器去同步分发就好了!!
去一台我们经常使用的机器上写这个脚本
而且希望该脚本能在任意位置执行
那也就要配置环境变量了!
那我把bin创建出来 在这里面写脚本!! 这样的话 就不需要我再手动配置环境变量了!! 这是对规则的合理利用
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
echo "Not Enough Arguement!"
#退出当前脚本
exit
fi
#2. 遍历集群所有机器
for host in hadoop103 hadoop104
do
#3. 遍历所有目录,挨个发送
for file in $@
do
#4. 判断文件是否存在
if [ -e $file ]
then
#5. 获取父目录 同时防止传参是软链接
pdir=$(cd -P $(dirname $file); pwd)
#6. 获取当前文件的名称 因为我也可能传绝对路径进来
fname=$(basename $file)
#7.登录目标机器 创建统一的目录结果
ssh $host "mkdir -p $pdir"
#8.依次把要分发的文件和目录进行分发
rsync -av $pdir/$fname $host:$pdir
else
#文件不存在
echo "$file does not exists!"
exit
fi
done
done
分发my_env给103 104
zcy[普通用户]相对my_env文件进行分发(肯定有写操作)
应该看后三位 发现根本没有权限
所以不能用刚刚写的脚本
用scp手动发一下就行
分发完 同样要在103 104上source一下才生效
3.3Hadoop集群规划
HDFS集群和yarn集群包含多个服务 启动在哪个机器 由自己来决定(改配置文件就行)
- NameNode和SecondaryNameNode不要安装在同一台服务器
- ResourceManager很消耗内存 不要和NameNode SecondaryNameNode配置在同一台机器上
3.4修改Hadoop配置文件
Hadoop配置文件介绍
集群规划完之后 就要搭建集群了(说白了就是要修改配置文件)hadoop的默认配置文件:
- core-default.xml
- hdfs-default.xml
- mapread-default.xml
- yarn-default.xml
hadoop提供可自定义的配置文件:
- core-site.xml
- hdfs-site.xml
- mapread-site.xml
- yarn-site.xml
当Hadoop集群启动后 先加载默认配置 然后再加载自定义配置文件 自定义的配置信息会覆盖默认配置
coresite.xml
vim /opt/module/hadoop-3.1.3/etc/hadoop/coresite.xml
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:9820</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为zcy -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>zcy</value>
</property>
<!-- 配置该atguigu(superUser)允许通过代理访问的主机节点 -->
<property>
<name>hadoop.proxyuser.zcy.hosts</name>
<value>*</value>
</property>
<!-- 配置该atguigu(superUser)允许通过代理用户所属组 -->
<property>
<name>hadoop.proxyuser.zcy.groups</name>
<value>*</value>
</property>
<!-- 配置该atguigu(superUser)允许通过代理的用户-->
<property>
<name>hadoop.proxyuser.zcy.groups</name>
<value>*</value>
</property>
</configuration>
hdfs-site.xml
vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop102:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:9868</value>
</property>
yarn-site.xml
vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml
<!-- 指定MR走shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
<!-- yarn容器允许分配的最大最小内存 -->
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>4096</value>
</property>
<!-- yarn容器允许管理的物理内存大小 -->
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
<!-- 关闭yarn对物理内存和虚拟内存的限制检查 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
mapred-site.xml
vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml
<!-- 指定MapReduce程序运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
分发配置文件到103 104
3.5群起/群停集群
配置ssh免密登录
- 之前做一些操作 经常需要我们输入密码 不方便
- 配置免密登录之后 才能使用Hadoop提供的群起群停脚本
在102上 先生成密钥对
然后给102 103 104 都授权
上面两步 同样的操作 在103 104都做一遍 在103上 先生成密钥对 然后授权给102 103 104 在104上 先生成密钥对 然后授权给102 103 104
配置workers文件
当我们用脚本启动的时候 肯定是在一台机器上执行这个脚本就行了 假如在102上群起hdfs 启动的时候一定会读取Hadoop的配置文件 它就知道在102上要启动nn但是并没有指定在哪台机器启动dn(yarn的nm也是一样的) 这个时候 脚本是通过读取 /opt/module/hadoop-3.1.3/etc/hadoop/workers来确定要在哪里启动dn和nm
别忘记分发workers文件
格式化
如果集群是第一次启动,需要在hadoop102节点格式化NameNode
如果集群在运行过程中报错 需要重新格式化NameNode的话 一定要先停止namenode和datanode进程 并且要删除所有机器的data和logs目录 然后再进行格式化 因为格式化NameNode 会产生新的集群id 导致NameNode和DataNode的集群id不一致 集群找不到已往数据
hdfs namenode -format
群起集群
这些群起群停的脚本 都在sbin里
根据自己集群的规划来启动hdfs和yarn(先后无所谓 但是要在正确的位置执行)在hadoop102(nn在这)上启动hdfs start-dfs.sh
在hadoop103(rm在这)上启动yarn start-yarn.sh
群停集群
在hadoop102(nn在这)上停止hdfs stop-dfs.sh
在hadoop103(rm在这)上启动yarn stop-yarn.sh
查看Web端界面
http://hadoop102:9870 Web端查看HDFS的NameNode 查看HDFS上存储的数据信息
http://hadoop103:8088 Web端查看YARN的ResourceManager 查看YARN上运行的Job信息
完全分布式模式测试
这里就有一个疑问
为什么同样的测试代码
这次就跑去找HDFS上的数据而不是本地Linux的数据了呢?
这和配置文件有关
本地模式:/wcinput被解析成file:///wcinput(配置文件没改 默认)
hadoop jar share/hadoop/...jar wordcount file:///wcinput file:///wcoutput
完全分布式模式:/wcinput被解析成hdfs://hadoop102:9820/wcinput /wcoutput被解析成hdfs://hadoop102:9820/wcoutput
hadoop jar share/hadoop/...jar wordcount hdfs://hadoop102:9820/wcinput hdfs://hadoop102:9820/wcoutput
当MR程序在集群运行的时候/代表的是HDFS的根目录 这是有core-site.xml中的配置信息决定的
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:9820</value>
</property>
单点启动的指令