二、Hadoop教程之分布式环境集群搭建讲解(详细)
- 前言
- 1. 布式环境部署
- (1) 准备工作
- (2) 配置工作
- (3) 启动工作
- (4) 查看集群
前言
本文只介绍安装部署Apache Hadoop2.x版本,后续文章将来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hadoop才是目的。
1. 布式环境部署
分部式是真正利用多台 Linux 主机来进行部署 Hadoop,对 Linux 机器集群进行规划,使得 Hadoop 各个模块分别部署在不同的多台机器上。
下面将演示Hadoop集群分布式部署(包含1个主节点和2个从节点)。
(1) 准备工作
准备三台linux服务器:
192.168.2.110 (主节点)
192.168.2.111 (从节点)
192.168.2.112 (从节点)
关闭防火墙
安装JDK并配置环境变量
默认您已安装JDK并配置环境变量,安装和配置在此不做赘述。
//192.168.2.110上配置如下:
/usr/local/jdk/jdk1.8.0_192/bin/java
//192.168.2.111上配置如下:
/usr/local/server/jdk1.8.0_171/bin/java
//192.168.2.112上配置如下:
/usr/local/server/jdk1.8.0_171/bin/java
想知道是否配置成功?查看全局变量:
echo $JAVA_HOME
(1)三台服务器配置同步时间:
yum install ntpdate
ntpdate cn.pool.ntp.org
(2)三台服务器配置主机名:
vim /etc/sysconfig/network
//192.168.2.110上network配置如下:
NETWORKING=yes
HOSTNAME=node-1
//192.168.2.111上network配置如下:
NETWORKING=yes
HOSTNAME=node-2
//192.168.2.112上network配置如下:
NETWORKING=yes
HOSTNAME=node-3
(2)三台服务器设置ip、主机名映射:
vim /etc/hosts
//192.168.2.110上hosts配置如下:
192.168.2.110 node-1
//192.168.2.111上hosts配置如下:
192.168.2.111 node-2
//192.168.2.112上hosts配置如下:
192.168.2.112 node-3
(3)主节点服务器配置ssh免密登录(192.168.2.110上配置)
网上hadoop配置ssh免密登录的方法多种多样,看的眼花缭乱。条条大路通罗马,博主整理了最简洁的配置方法:
ssh-keygen -t rsa # 会有提示,都按回车就可以
//cat id_rsa.pub >> authorized_keys # 加入授权(非必须执行)
//chmod 600 ./authorized_keys # 修改文件权限(非必须执行)
ssh-copy-id node-1
ssh -o StrictHostKeyChecking=no node-1
ssh-copy-id node-2
ssh -o StrictHostKeyChecking=no node-2
ssh-copy-id node-3
ssh -o StrictHostKeyChecking=no node-3
ssh-copy-id :命令可以将当前生成的公共密钥填充到一个远程机器上的authorized_keys文件中。
ssh -o StrictHostKeyChecking=no:在首次连接服务器时,会弹出公钥确认的提示。这会导致某些自动化任务,由于初次连接服务器而导致自动化任务中断。或者由于 ~/.ssh/known_hosts 文件内容清空,导致自动化任务中断。 SSH 客户端的 StrictHostKeyChecking 配置指令,可以实现当第一次连接服务器时,自动接受新的公钥。
如果报错:The authenticity of host ‘node-2 (10.0.0.8)’ can’t be established。别慌,再次执行下面命令:
ssh -o StrictHostKeyChecking=no node-2
如果报错:Permissions 0644 for ‘/root/.ssh/id_rsa’ are too open。别慌,是说/root/.ssh/id_rsa给的权限太开放,执行下面命令赋权:
chmod 0600 /root/.ssh/id_rsa
(2) 配置工作
将hadoop-2.8.5传到/home/neijiang/目录(可以自定义),以下配置均是在主节点服务器上进行,配置完成后,将主节点的hadoop-2.8.5复制到所有从节点即可:
(特别注意:因为hadoop的环境变量不是在hadoop-2.8.5目录下配置的,所有需手动配置到从节点)
(1)配置hadoop-env.sh
vim hadoop-env.sh
//192.168.2.110上hadoop-env.sh配置如下:
<!-- 修改 JAVA_HOME 路径 -->
export JAVA_HOME=/usr/local/jdk1.8.0_171
(2)修改配置文件 core-site.xml
//192.168.2.110上core-site.xml配置如下:
<configuration>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/neijiang/hadoop-2.8.5/hadoopData</value>
<description>Abase for other temporary directories.</description>
</property>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>
</configuration>
(3)修改配置文件 hdfs-site.xml:
//192.168.2.110上hdfs-site.xml配置如下:
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定HDFS副本所在节点位置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>
</configuration>
(4)修改配置文件 mapred-site.xml.template:
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
//192.168.2.110上mapred-site.xml.template配置如下:
<configuration>
<!--指定mr运行时框架,这里指定在yarn上,默认是local-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5)yarn-site.xml
//192.168.2.110上yarn-site.xml配置如下:
<!--指定yarn的老大(resourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>
<!--NodeManager上运行的附属服务,需配置成mapreduce_shuffle,才可运行MapReduce程序的默认值-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(6)slaves文件,里面写上从节点所在的主机名称
vim slaves
//192.168.2.110上slaves配置如下:
//删除原先的localhsot,写入如下内容:
node-1
node-2
node-3
(7)将hadoop添加到环境变量
vim /etc/profile
//192.168.2.110上配置如下:
export HADOOP_HOME=/home/neijiang/hadoop-2.8.5/ #指向hadoop解压路径
export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH=$HBASE_HOME/bin:$ZK_HOME/bin:$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(8)将主节点192.168.2.110上配置好的 hadoop-2.10.0根目录复制到所有从节点:
scp -r /home/neijiang/hadoop-2.8.5/ root@node-2:/home/neijiang/
scp -r /home/neijiang/hadoop-2.8.5/ root@node-3:/home/neijiang/
(9)将主节点192.168.2.110上配置好的 hadoop环境变量手动配置到所有从节点:
export HADOOP_HOME=/home/neijiang/hadoop-2.8.5 #指向hadoop解压路径
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(3) 启动工作
(1)关于hdfs的格式化:
首次启动需要进行格式化,格式化的本质是进行文件系统的初始化操作,创建一些自己需要的文件;
格式化之后,集群启动成功,后续再也不需要格式化。
格式化的操作必须在hdfs集群的主节点(Namenode)所在的机器上操作
格式化命令:
hadoop namenode -format
(2) 启动方式
/home/neijiang/hadoop-2.8.5/sbin下
hdfs启动: start-dfs.sh
yarn启动: start-yarn.sh
//等同于:start-all.sh
hdfs关闭: stop-dfs.sh
yarn关闭: stop-yarn.sh
//等同于:stop-all.sh
(4) 查看集群
(1)hdfs集群web-ui页面(文件系统:集群状态和文件存储):
http://192.168.2.110:50070/ (2)yarn集群web-ui页面(资源调度平台:管理计算资源):
http://192.168.2.110:8088/
可以在各个节点服务器上,使用jps命令查看启动的东西