前言

大家都知道,Hadoop的部署方式可分为

  • 单机模式
  • 伪分布式
  • 完全分布式

本篇主要讲解的就是完全分布式。

搭建完全分布式的集群环境,需要多台的硬件设备,作为初学者,为了搭建集群去买多台电脑,多少有点不现实,所以这里我采用的是VM虚拟机,模拟搭建一个由三台机器组成的集群。

hadoop的分布式环境,需要具备安装和操作VM虚拟机,使用Ubuntu系统的基本命令,Linux下安装Java以及Hadoop等相关技能。不过不会的话,也不用太担心,我会尽量把我的操作过程写得详细一点。

具体的搭建过程可以分为以下几个阶段:

  • 安装虚拟机
  • 安装和配置Ubuntu
  • 安装和配置Java环境
  • 安装和配置Hadoop

安装虚拟机

VMware Workstation 下载 http://rj.baidu.com/soft/detail/13808.html?ald
激活码百度一搜一大堆,这里就不写了,安装过程也比较简单,实在不会的,百度上也有图解的教程,请自行搜索。

安装和配置Ubuntu

Ubuntu 下载https://www.ubuntu.com/download

Ubuntu操作系统,我们需要安装三台虚拟机,分别命名为Hadoop Master(以下简称master),Hadoop Slave1(以下简称slave1)和Hadoop Slave2(以下简称slave2),以下以安装master为例VMware Workstation 12 Pro(以下简称VM) 

服务器集群如何虚拟化 服务器vm虚拟集群_xml

文件 → 新建虚拟机 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_02

自定义(高级)(C),点击 下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_03

下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_04

浏览,选择下载好的Ubuntu的iso文件,点击 下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_05

下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_06

Hadoop Master(当我们安装第二个和第三个系统时分别使用Hadoop Slave1Hadoop Slave2,用于表示第一个是主服务器,第二个和第三个属于从服务器),点击浏览,选择一个本机的空间稍微大一点的目录用于存放我们安装系统的物理文件,点击 下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_07

4,处理器的核心数量使用默认的1就行,点击 下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_08

9、设置内存,注意,必须是4MB的倍数,根据自己机器的内存来设置。比如,我的PC主机内存是8G,我为每台虚拟机设置1.5G(1536MB)的内存,主机剩余3.5G内存,这样主机不卡,虚拟机内存也足够使用。原则上说,给虚拟机设置的内存总和不要超过PC主机的物理内存就行,只不过设置太高,主机就会变慢。 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_09

10、网络类型,这里选择使用桥接网络,因为我们需要主机与虚拟机与互联网,这三者都是通的,在安装的过程中,才不会遇到麻烦。 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_10

下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_11

 

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_12

下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_13

13、指定磁盘容量,也就是设置虚拟机系统占用主机的物理空间的大小,使用默认值即可。 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_14

下一步 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_15

完成,等待虚拟机系统安装完成,安装过程中,请保持网络畅通。Hadoop Slave1Hadoop Slave2,都安装好后,如下图 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_16

17、分别设置每台虚拟机的固定IP,保证虚拟机与虚拟机与主机之间都能够相互ping通。具体操作这里就不赘述了,网上资料有很多,如果是公司电脑,让网络管理员帮忙设置下,如果是自己的机器,看下自己的路由器的IP分配情况 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_17

hostshostname,以便虚拟机与虚拟机与主机之间不用使用IP,使用hostname就可以相互识别,很方便。

192.168.8.230    master
192.168.8.231    slave1
192.168.8.232    slave2

以master为例,通过命令:

hadoop@master:~$ vi /etc/hostname

master,另外两台虚拟机分别设置为slave1slave2 

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_18

hadoop@master:~$ vi /etc/hosts

三台虚拟机都设置成以下的配置 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_19

SSH无密码登录

首先通过命令生成公匙:

hadoop@master:~$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_20

authorized_keys文件中:

hadoop@master:~$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这样,localhost就可以无密码登录了,看下效果:

hadoop@master:~$ ssh localhost
Welcome to Ubuntu 12.04 LTS (GNU/Linux 3.2.0-123-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

722 packages can be updated.
356 updates are security updates.

New release '14.04.5 LTS' available.
Run 'do-release-upgrade' to upgrade to it.

Last login: Tue Mar  7 14:40:15 2017 from slave1
hadoop@master:~$

1

slave1slave2authorized_keys文件中,就可以让master无密码登录slave1slave2了。

通过命令远程复制:

hadoop@master:~$ scp ~/.ssh/id_dsa.pub hadoop@slave1:~/
hadoop@master:~$ scp ~/.ssh/id_dsa.pub hadoop@slave2:~/

服务器集群如何虚拟化 服务器vm虚拟集群_hadoop_21

slave1slave2机器上,添加master的公匙信息到authorized_keys文件中:

hadoop@slave1:~$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys
  • 1
  • 1
hadoop@slave2:~$ cat ~/id_dsa.pub >> ~/.ssh/authorized_keys
  • 1
  • 1

master上,测试一下效果: 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_22

同理:

slave1

  • 生成公匙,然后复制到

master

slave2

authorized_keys

  • 文件中,这样

slave1

  • 就可以无密码登录

master

slave2

slave2

  • 生成公匙,然后复制到

master

slave1

authorized_keys

  • 文件中,这样

slave2

  • 就可以无密码登录

master

slave1

以上就是三台虚拟机的SSH无密码登录配置方法,大家可以根据实际的使用情况来设置,并不一定非要三台都支持双向的无密码登录。

安装和配置Java环境

安装JDK: 下载 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

master为例,下载完,解压,这些最好都在hadoop用户的根目录下执行,可以避免在其他目录没有权限的问题,解压完在移动到/usr/lib/jvm/jdk1.8.0_121目录下面,这个不是必须的,大家也可以移到其他目录:

hadoop@master:~$ cd ~
hadoop@master:~$ tar -zxvf ~/jdk-8u121-linux-x64.tar.gz
hadoop@master:~$ sudo mv ~/jdk1.8.0_121 /usr/lib/jvm/
  • 3


服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_23

2、配置环境变量

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_121
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

~/.bashrc文件中,注意,JAVA_HOME后面的路径改成自己的安装路径:

hadoop@master:~$ vi ~/.bashrc
hadoop@master:~$ source ~/.bashrc

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_24

Java -version命令查看版本,如果出现以下信息,说明配置成功了: 

服务器集群如何虚拟化 服务器vm虚拟集群_服务器集群如何虚拟化_25

slave1slave2安装和配置好java环境


安装和配置Hadoop

hadoop下载 http://hadoop.apache.org/releases.html

hadoop集群中每台机器的配置都基本相同,我们先配置好master,然后复制到slave1slave2hadoop,移动到/usr目录下去

服务器集群如何虚拟化 服务器vm虚拟集群_xml_26

hadoop@master:~$ sudo mv ~/hadoop /usr/
  • 1
  • 1

2、创建几个关键目录,以备后用:

hadoop@master:~$ mkdir dfs
hadoop@master:~$ mkdir dfs/name
hadoop@master:~$ mkdir dfs/data
hadoop@master:~$ mkdir tmp

服务器集群如何虚拟化 服务器vm虚拟集群_hadoop_27

3、修改配置文件:

~/hadoop/etc/hadoop/hadoop-env.sh
~/hadoop/etc/hadoop/yarn-env.sh
~/hadoop/etc/hadoop/slaves
~/hadoop/etc/hadoop/core-site.xml
~/hadoop/etc/hadoop/hdfs-site.xml
~/hadoop/etc/hadoop/mapred-site.xml
~/hadoop/etc/hadoop/yarn-site.xml
  • 1

hadoop-env.sh,将JAVA_HOME后面填写上自己的JDK路径 

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_28

yarn-env.sh,将JAVA_HOME后面填写上自己的JDK路径 

服务器集群如何虚拟化 服务器vm虚拟集群_hadoop_29

slaves,填写所有的slave节点 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_30

core-site.xml,说明:hdfs://master:8020

  • 中的

master

hostname

  • ,如果你们设置的跟我的不一样请修改

file:/home/hadoop/tmp

  • 就是刚才第2步设置的目录,如果你们设置的跟我的不一样请修改

hadoop.proxyuser.hadoop.hosts

hadoop.proxyuser.hadoop.groups

  • 中的第二个

hadoop

  • 换成自己的用户名
<configuration>
       <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:8020</value>
       </property>
       <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
       <property>
               <name>hadoop.tmp.dir</name>
               <value>file:/home/hadoop/tmp</value>
               <description>Abase for other temporary directories.</description>
       </property>
        <property>
               <name>hadoop.proxyuser.hadoop.hosts</name>
               <value>*</value>
       </property>
       <property>
               <name>hadoop.proxyuser.hadoop.groups</name>
               <value>*</value>
       </property>
</configuration>

hdfs-site.xml,说明:master:9001

  • 中的

master

hostname

  • ,如果你们设置的跟我的不一样请修改

file:/home/hadoop/dfs/name

file:/home/hadoop/dfs/data

  • 就是刚才第2步设置的目录,如果你们设置的跟我的不一样请修改
<configuration>
       <property>
                <name>dfs.namenode.secondary.http-address</name>
               <value>master:9001</value>
       </property>
     <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/home/hadoop/dfs/name</value>
       </property>
      <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/home/hadoop/dfs/data</value>
       </property>
       <property>
               <name>dfs.replication</name>
               <value>3</value>
        </property>
        <property>
                 <name>dfs.webhdfs.enabled</name>
                  <value>true</value>
         </property>
</configuration>

mapred-site.xml,说明:其中的masterhostname,如果你们设置的跟我的不一样请修改

<configuration>
          <property>
        <name>mapreduce.framework.name</name>
                <value>yarn</value>
           </property>
          <property>
                  <name>mapreduce.jobhistory.address</name>
                  <value>master:10020</value>
          </property>
          <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
       </property>
</configuration>

yarn-site.xml,说明:其中的masterhostname,如果你们设置的跟我的不一样请修改

<configuration>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
               <name>yarn.resourcemanager.address</name>
               <value>master:8032</value>
       </property>
       <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>master:8030</value>
       </property>
       <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
             <value>master:8031</value>
      </property>
      <property>
              <name>yarn.resourcemanager.admin.address</name>
               <value>master:8033</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>master:8088</value>
       </property>
</configuration>

master配置完成,我们把hadoop整个目录复制到slave1slave2上去

hadoop@master:~$ sudo scp -r /usr/hadoop hadoop@slave1:~/
hadoop@master:~$ sudo scp -r /usr/hadoop hadoop@slave2:~/
  • 1

slave1slave2机器上将hadoop目录移动到和master相同的目录中去

hadoop@master:~$ ssh slave1
hadoop@slave1:~$ sudo mv ~/hadoop/ /usr/
hadoop@master:~$ ssh slave2
hadoop@slave2:~$ sudo mv ~/hadoop/ /usr/
  • 1

hadoop路径到环境变量中

hadoop@master:~$ vi /etc/environment
hadoop@master:~$ source /etc/environment
  • 1

添加以下红框的内容,如果你们的hadoop路径和我的不一样,请修改 

服务器集群如何虚拟化 服务器vm虚拟集群_xml_31

hadoopnamenode

hadoop@master:~$ hdfs namenode –format
  • 1
  • 1

hdfs

hadoop@master:~$ start-dfs.sh
  • 1
  • 1

yarn

hadoop@master:~$ start-yarn.sh
  • 1
  • 1

8、查看进程

master的:

hadoop@master:~$ jps

服务器集群如何虚拟化 服务器vm虚拟集群_Hadoop_32

slave1上查看进程:

hadoop@master:~$ ssh slave1
hadoop@slave1:~$ jps
  • 2


服务器集群如何虚拟化 服务器vm虚拟集群_hadoop_33

http://master:8088/查看: 

服务器集群如何虚拟化 服务器vm虚拟集群_hadoop_34

搞定!

ps:

1.  安装3个客户机

sudo passwd root密码:123456
2.  etc/hostname  修改为master、slavel1、slavel2
3.   sudo gedit etc/hosts和 sudo geditetc/hosts~  修改相应ip和hostname
三个主机各自(1)ssh-keygen -t dsa -P'' -f ~/.ssh/id_dsa
(2)cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
 ---》即可ssh localhost
4.      三个客户机ssh-keygen
----》
cat ~/.ssh/id_rsa.pub | ssh -p 22 hadoop@slavel1 'cat>> ~/.ssh/authorized_keys'

至另外两台