HA集群安装部署
1 运行环境
1.1 软件环境
四个节点
OS:64位RHEL5及以上或者64位CentOS6.0及以上
JVM:预装64位JDK 1.8及以上版本
1.2 浏览器要求
Firefox 39.0.0版本及以上或者Google Chrome 54.0.2840.8版本及以上。
BEH-Manager-4.1.2安装包于官方网站下载:http://beh.pezy.cn/ 2 安装准备
2.1准备虚拟机
准备四个节点的虚拟机
2.2 修改主机名
所有节点分别操作,在各个节点执行以下操作来修改主机名,使集群下的主机有格式一个统一的主机名,以便后续的操作和维护。
使用root用户修改主机名

vim /etc/sysconfig/network

文件内容修改为:

hadoop001

(hadoop001为想改的主机名,分别修改自己的)

在对应主机上执行以下命令,使主机名生效:

hostname hadoop***

注:主机名(hadoop0**)与主机相对应。
2.3 关闭防火墙
通过setup命令关闭防火墙

注:要使用root用户

2.4 修改主机名列表
使用root用户修改/etc/hosts (所有节点都操作,且内容相同)

vim /etc/hosts

添加以下内容:

192.168.9.10  hadoop001
192.168.9.11  hadoop002
192.168.9.12  hadoop003
192.168.9.13  hadoop004
……

2.5 配置时间同步
2.5.1配置自动时钟同步
该项同时需要在所有节点配置。

使用Linux命令配置

[root@master ~]$ crontab -e

该命令是vi编辑命令,按i进入插入模式,按Esc,然后键入:wq保存退出
键入下面的一行代码,输入i,进入插入模式(星号之间和前后都有空格)

0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org

2.5.2手动同步时间
直接在Terminal运行下面的命令:

[root@master ~]$ /usr/sbin/ntpdate cn.pool.ntp.org

2.6 配置免秘钥登录
lan用户登录hadoop001节点,执行以下指令生成一对密钥(hadoop用户下)

ssh-keygen –t rsa

回车——回车——回车
登录hadoop002节点生成密钥,并传给hadoop001

ssh-keygen –t rsa
scp /home/lan/.ssh/id_rsa.pub lan@hadoop001:/home/lan /.ssh/id_rsa.pub002

登录hadoop003节点生成密钥,并传给hadoop001

ssh-keygen –t rsa
scp /home/lan/.ssh/id_rsa.pub lan@hadoop001:/home/lan /.ssh/id_rsa.pub003

登录hadoop004节点生成密钥,并传给hadoop001

ssh-keygen –t rsa
scp /home/lan/.ssh/id_rsa.pub lan@hadoop001:/home/lan /.ssh/id_rsa.pub00

4
登录hadoop001节点,组合所有公钥

cd ~/.ssh
cat id_rsa.pub >> authorized_keys
cat id_rsa.pub002 >> authorized_keys
cat id_rsa.pub003 >> authorized_keys
cat id_rsa.pub004 >> authorized_keys
chmod 600 authorized_keys

注:要修改文件权限。

分发密钥文件:在hadoop001上操作

scp /home/lan/.ssh/authorized_keys lan@hadoop002:~/.ssh/
scp /home/lan/.ssh/authorized_keys lan@hadoop003:~/.ssh/
scp /home/lan/.ssh/authorized_keys lan@hadoop004:~/.ssh/

注:以上所有登陆节点、传输文件过程都需要输入对应节点lan用户的登录密钥。

到此,免密成功,所有节点可以相互之间免密登录。
测试ssh hadoop002
2.7 安装jdk

注:因为大数据所有组件都是在JVM环境中运行,所以在安装其他组件之前必须安装首先JDK。
jdk版本推荐安装1.8

下载地址[http://pan.baidu.com/s/1c3kcWm]密码:alcj或者官网自行下载

上传至服务器lan用户下:/home/lan

解压, 将JDK文件解压,放到/usr/java目录下,使用root用户

mkdir /usr/java/
mv /home/lan/jdk-8u101-linux-x64.tar.gz /usr/java/
cd /usr/java/
tar -zxvf jdk-8u101-linux-x64.gz

配置环境变量,使用lan用户

vim ~/.bash_profile

添加以下内容

export JAVA_HOME=/usr/java/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH

生效配置文件

source ~/.bash_profile

测试

java -version

其他节点同上
3 安装其他组件
3.1 安装zookeeper

注:以下所有安装默认是在hadoop001上执行!

1.解压并移动软件包(在所有节点执行)
将zookeeper-3.4.6.tar.gz 解压缩,

tar -zxvf zookeeper-3.4.6.tar.gz

2.修改配置文件(在hadoop001执行)
修改Zookeeper配置文件/home/lan/zookeeper-3.4.6/conf/zoo_sample.cfg重名为zoo.cfg。
进入到conf目录下,执行:

mv  zoo_sample.cfg  zoo.cfg

修改zoo.cfg,添加如下内容

server.1=hadoop001:2888:3888
server.2=hadoop002:2888:3888
server.3=hadoop004:2888:3888

3.创建相关目录
创建/tmp/zookeeper目录,并在此目录下创建myid文件。

mkdir /tmp/zookeeper
cd /tmp/zookeeper
vim myid

在文件中写入数字

1

4.分发zookeeper软件包

scp -r /home/lan/zookeeper-3.4.6 lan@hadoop002:~/
scp -r /home/lan/zookeeper-3.4.6 lan@hadoop004:~/

5.修改myid文件

ssh lan@hadoop002
vim /tmp/zookeeper/myid

修改文件中数字为2

2

ssh lan@hadoop004
vim /tmp/zookeeper/myid

修改文件中数字为3

3

注:重新登录终端环境变量生效。

6.启动Zookeeper
在hadoop001,hadoop002,hadoop004上执行

bin/zkServer.sh start

查看进程QuorumPeerMain是否启动

jps

查看zookeeper状态

bin/zkServer.sh status

3.2 安装hadoop
hadoop部分的配置分为两部分hdfs和yarn。
3.2.1 HDFS
1.解压并移动软件包(在所有节点执行)
将/home/lan/hadoop-2.7.1.tar.gz解压

tar -zxvf hadoop-2.7.1.tar.gz

2.修改配置文件

修改core-site.xml(如果文件不存在,但是core-site.xml.template文件存在,则先修改文件名,执行mv core-site.xml.template core-site.xml

vim /home/lan/hadoop-2.7.1/etc/hadoop/core-site.xml

修改为以下内容:

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop001:9000</value>
    <final>false</final>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/lan/hadoopdata</value>
    <final>false</final>
  </property>
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>hadoop001:2181,hadoop002:2181,hadoop004:2181</value>
    <final>false</final>
  </property>
</configuration>

修改hdfs-site.xml

vim /home/lan/hadoop-2.7.1/etc/hadoop/hdfs-site.xml

修改为以下内容:

<configuration>
  <property>
  <!--HDFS NN的逻辑名称,可以随便设置 -->
    <name>dfs.nameservices</name>
    <value>beh</value>
    <final>false</final>
  </property>
  <property>
  <!-- 给定服务逻辑名称beh的节点列表 -->
    <name>dfs.ha.namenodes.beh</name>
    <value>nn1,nn2</value>
    <final>false</final>
  </property>
  <property>
  <!--beh中nn1节点对外服务的RPC地址-->
    <name>dfs.namenode.rpc-address.beh.nn1</name>
    <value>hadoop001:9000</value>
    <final>false</final>
  </property>
  <property>
  <!--beh中nn1节点对外服务的http地址-->
    <name>dfs.namenode.http-address.beh.nn1</name>
    <value>hadoop001:50070</value>
    <final>false</final>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.beh.nn2</name>
    <value>hadoop002:9000</value>
    <final>false</final>
  </property>
  <property>
    <name>dfs.namenode.http-address.beh.nn2</name>
    <value>hadoop002:50070</value>
    <final>false</final>
  </property>
  <property>
  <!-- 设置一组 journalNode 的 URI 地址,active NN 将 edit log 写入这些JournalNode,而 standby NameNode 读取这些 editlog,并作用在内存中的目录树中。如果journalNode有多个节点则使用分号分割。该属性值应符合以下格式qjournal://host1:port1;host2:port2;host3:port3/journalId-->
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://hadoop001:8485;hadoop002:8485;hadoop004:8485/beh</value>
    <final>false</final>
  </property>
  <property>
  <!--启动自动failover(故障切换)-->
    <name>dfs.ha.automatic-failover.enabled.beh</name>
    <value>true</value>
    <final>false</final>
  </property>
  <property>
  <!--配置失败自动切换方式-->
<!--客户端与 active NameNode 进行交互的 Java 实现类,DFS 客户端通过该类寻找当前的active NN ,确定active 节点是否活跃-->
    <name>dfs.client.failover.proxy.provider.beh</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    <final>false</final>
  </property>
  <property>
  <!--JournalNode 所在节点上的一个目录,用于存放 editlog 和其他状态信息-->
    <name>dfs.journalnode.edits .dir</name>
    <value>/home/lan/metadata/journal</value>
    <final>false</final>
  </property>
  <property>
  <!--配置隔离机制-->
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
    <final>false</final>
  </property>
  <property>
  <!--指定ssh通讯使用的密钥-->
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/lan/.ssh/id_rsa</value>
    <final>true</final>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
    <final>false</final>
  </property> 
<configuration>

修改slaves

vim /home/lan/hadoop-2.7.1/etc/hadoop/slaves

修改为以下内容:

hadoop003
hadoop004

3.2.2 YARN
修改mapred-site.xml

vim /home/lan/hadoop2.7.1/etc/hadoop/mapred-site.xml

修改为以下内容:

<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop004:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop004:19888</value>
</property>
<property>
    <name>yarn.app.mapreduce.am.staging-dir</name>
<value>/home/lan/metadata/hadoop-yarn/staging</value>
</property>
</configuration>

修改yarn-site.xml

vim /home/lan/hadoop2.7.1/etc/hadoop/yarn-site.xml

修改为以下内容:

<?xml version=”1.0” encoding=”UTF-8”?>
<configuration>
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<!--中间结果存放位置-->
    <name>yarn.nodemanager.local-dirs</name>
    <value>/home/lan/metadata/yarn</value>
</property>
<property>
    <name>yarn.nodemanager.log-dirs</name>
    <value>/home/lan/logs/yarn/userlogs</value>
</property>
<property>
 <!--是否启用日志聚合功能,日志聚合开启后保存到HDFS上-->
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <description>Where to aggregate logs</description>
    <!--当应用程序运行结束后,日志被转移到的HDFS目录-->
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>hdfs://hadoop001:9000/var/log/hadoop-yarn/apps</value>
</property>
<!-- Resource Manager Configs -->
<property>
<!--rm失联后重新链接的时间-->
<name>yarn.resourcemanager.connect.retry-interval.ms</name>
    <value>2000</value>
</property>
<property>
<!--开启resourcemanagerHA,默认为false-->
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
</property>
<property>
<!--开启故障自动切换-->
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>
<property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>beh</value>
</property>
<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
</property>

  <!--RM1 RM2 is different-->
<property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm1</value>

如果是namenode2机器上,需要将该部分的rm1修改为rm2

</property>
<property>
    <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>
<property>
<!--开启自动恢复功能-->
    <name>yarn.resourcemanager.recovery.enabled</name>
    <value>true</value>
</property>
<property>
    <name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
<!--配置与zookeeper的连接地址-->
<name>yarn.resourcemanager.zk.state-store.address</name>
<value>hadoop001:2181,hadoop002:2181,hadoop004:2181</value>
</property>
<property>
<!--schelduler失联等待连接时间-->
<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>
    <value>5000</value>
</property>
<!-- RM1 configs -->
<property>
    <name>yarn.resourcemanager.address.rm1</name>
    <value>hadoop001:23140</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address.rm1</name>
    <value>hadoop001:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address.rm1</name>
    <value>hadoop001:23189</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address.rm1</name>
    <value>hadoop001:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm1</name>
    <value>hadoop001:23125</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address.rm1</name>
    <value>hadoop001:23141</value>
</property>
<!-- RM2 configs -->
<property>
    <name>yarn.resourcemanager.address.rm2</name>
    <value>hadoop002:23140</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address.rm2</name>
    <value>hadoop002:23130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address.rm2</name>
   <value>hadoop002:23189</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address.rm2</name>
    <value>hadoop002:23188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm2</name>
    <value>hadoop002:23125</value>
</property>
<property>
    <name>yarn.resourcemanager.admin.address.rm2</name>
    <value>hadoop002:23141</value>
</property>
<!-- Node Manager Configs -->
<property>
    <name>mapreduce.shuffle.port</name>
    <value>23080</value>
</property>
<property>
    <name>yarn.resourcemanager.zk-address</name>
<value>hadoop001:2181,hadoop002:2181,hadoop004:2181</value>
</property>
</configuration>

修改环境变量

vim /home/lan/hadoop-2.7.1/etc/hadoop/hadoop-env.sh
vim /home/lan/hadoop-2.7.1/etc/hadoop/yarn-env.sh

修改为以下内容:

export JAVA_HOME=/usr/java/jdk1.8.0_101

3.2.3 分发配置文件

scp -r /home/lan/hadoop2.7.1 lan@hadoop002:~/
scp -r /home/lan/hadoop2.7.1 lan@hadoop003:~/
scp -r /home/lan/hadoop2.7.1 lan@hadoop004:~/

注:将以上配置复制到所有节点

3.2.4 启动HDFS
启动journalnode(进程名:JournalNode)

$HADOOP_HOME/sbin/hadoop-daemon.sh start journalnode

格式化zookeeper,在hadoop001上执行。

格式化之前需要确定,ZooKeeper必须已经启动。
启动Zookeeper: zkServer-sh start

hdfs zkfc -formatZK

对hadoop1节点进行格式化和启动启动namenode(进程名:NameNode):

hdfs namenode -format

$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode

对hadoop2节点进行格式化和启动

hdfs namenode -bootstrapStandby

$HADOOP_HOME/sbin/hadoop-daemon.sh start namenode

在hadoop1和hadoop2上启动zkfc服务(zkfc服务进程名:DFSZKFailoverController):此时hadoop1和hadoop2就会有一个节点变为active状态

$HADOOP_HOME/sbin/hadoop-daemon.sh start zkfc

启动datanode(进程名:DataNode):在hadoop1上执行

$HADOOP_HOME/sbin/hadoop-daemons.sh start datanode

3.2.5 验证是否成功
打开浏览器,访问 hadoop1:50070 以及 hadoop2:50070,你将会看到两个namenode一个是active而另一个是standby。
然后kill掉其中active的namenode进程,另一个standby的naemnode将会自动转换为active状态
hadoop001:50070

hadoop002:50070

3.2.6 启动yarn
在hadoop1上启动

(此脚本将会启动hadoop1上的resourcemanager及所有的nodemanager)

$HADOOP_HOME/sbin/start-yarn.sh

在hadoop2上启动resourcemanagerl

$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager

3.2.7 验证是否配置成功
打开浏览器,访问hadoop1:23188或者hadoop2:23188,只有active的会打开如下界面,standby的那个不会看到页面。

然后kill掉active的resourcemanager另一个将会变为active的,说明resourcemanager HA是成功的