一、配置虚拟机三台


1.网络配置


虚拟化软件: Vmware Workstations  10.7z

Linux系统:  Centos 6.5-x86_64



采用4台安装Linux环境的机器来构建一个小规模的分布式集群。


 wKioL1caB6GTPJdWAACjJ08qKpg989.png




集群机器详细信息


wKiom1caBzqQuGtWAAAg7TrAz7c278.png




1.虚拟化的网络配置方式:桥接网络

2.IP地址设置为固定IP地址

3.主机名配置,需要修改一下地方


(1)配置vi  /etc/hostname


wKioL1caCCSgnjDGAAAOVoY1mZo451.png

 

(2)配置vi /etc/sysconfig/network


wKiom1caB3CBVNshAAAYSJP7Mvo857.png

 

(3)配置vi /etc/hosts


wKioL1caCEvAI1qFAAAdaSBCqzU423.png


 


4.关闭防火墙


1) 重启后生效 


开启: chkconfig iptables on 

关闭: chkconfig iptables off 



2) 即时生效,重启后失效 


开启: service iptables start 

关闭: service iptables stop 


配置完成后效果:


    三个节点相互ping通

    主机名可以正常解析

    可以正常ping通外网

     wKioL1caCPaTvMyCAABIeFEhy2w305.png


2. JAVA系统环境配置


Java的安装   


Rpm  -qa| grep  java     查看系统已安装的java


卸载已安装的java


 rpm -e –nodeps   (包名称)



配置环境变量 vi /etc/profile


#set java environment

export  JAVA_HOME=/usr/java/jdk1.8.0_77

export  JRE_HOME=/usr/java/jdk1.8.0_77/jre

export  CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export  PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH


配置完成后效果为:


 wKiom1caCGHyJd5fAAAf48Z-JKQ416.png





3.节点之间的无密码登录


SSH设置需要在集群上做不同的操作,如启动,停止,分布式守护shell操作。认证不同的Hadoop用户,需要一种用于Hadoop用户提供的公钥/私钥对,并用不同的用户共享。


下面的命令用于生成使用SSH键值对。复制公钥形成 id_rsa.pub 到authorized_keys 文件中,并提供拥有者具有authorized_keys文件的读写权限。



命令: ssh-keygen -t rsa 

命令:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


在其他节点上同样命令后,把所有节点的 id_rsa.pub 内容添加到authorized_keys,然后将authorized_keys 分发到所有节点的/.ssh/目录下


配置完成后效果为:

 

wKiom1caCICxosjIAAAnorKqgWc443.png




二、Hadoop配置安装



本文档的Hadoop版本为:hadoop-2.6.4.tar.gz


1.在Namenode节点上进行以下配置


下载 Hadoop 以后,可以操作Hadoop集群以以下三个支持模式之一:


本地/独立模式:下载Hadoop在系统中,默认情况下之后,它会被配置在一个独立的模式,用于运行Java程序。


模拟分布式模式:这是在单台机器的分布式模拟。Hadoop守护每个进程,如 hdfs, yarn, MapReduce 等,都将作为一个独立的java程序运行。这种模式对开发非常有用.


完全分布式模式:这种模式是完全分布式的最小两台或多台计算机的集群。我们使用这种模式在未来的章节中。




(1)文件 core-site.xml 改为下面的配置:


<property>

    <name>fs.default.name</name>

    <value>hdfs://192.168.1.220:9000</value>

</property>

<property>

    <name>hadoop.proxyuser.root.hosts</name>

    <value>192.168.1.220</value>

</property>

<property>

    <name>hadoop.proxyuser.root.groups</name>

    <value>*</value>

</property>


(2)文件 hdfs-site.xml改为下面的配置:


<property>

    <name>dfs.name.dir</name>

    <value>/usr/hadoop/name</value>

</property>


<property>

    <name>dfs.data.dir</name>

    <value>/usr/hadoop/data</value>

</property>


<property>

    <name>dfs.replication</name>

    <value>2</value>

</property>


<property>

    <name>dfs.support.append</name>

    <value>true</value>

</property>


<property>

    <name>dfs.datanode.address</name>

    <value>0.0.0.0:50110</value>

</property>



(3)文件 mapred-site.xml 改为下面的配置:


<property>

     <name>mapred.job.tracker</name>

     <value>http://192.168.1.220:9001</value>

</property>


<property>

    <name>mapried.local.dir</name>

    <value>/usr/hadoop/var</value>

</property>



(4)文件slaves改为下面的配置:


Master-Hadoop


Slave1-Hadoop


Slave2-Hadoop



(5)文件hadoop-env.sh改为下面的配置:


# The java implementation to use.

export JAVA_HOME=/usr/java/jdk1.8.0_77






2.在/usr/hadooop/下创新配置中的文件夹


Mkdir  tmp

Mkdir  logs

Mkdir  data





3.hadoop命令操作

(1)使用命令  hdfs namenode –format  如下设置名称节点


(2)启动命令  /usr/Hadoop/etc/Hadoop/start-all.sh


(3)查看节点状态  Hadoop  dfsadmin  -report


wKiom1caCcbRBdnBAAAfYijr5KI557.png




4.网页节点显示


http://Master-Hadoop:50070

 

wKioL1caCg_ySURyAAB9sdFM_ac998.png




http:// Master-Hadoop:8088



 wKioL1caCiCz7HzsAADNLTGHjUs737.png










参考网址:


http://itindex.net/detail/46949-wordcount

http://www.cnblogs.com/scotoma/archive/2012/09/18/2689902.html

http://dblab.xmu.edu.cn/blog/install-hadoop-cluster/

http://192.168.1.200:50070/dfshealth.html#tab-datanode

http://www.tuicool.com/articles/veim6bU

http://my.oschina.net/u/570654/blog/112780

http://blog.csdn.net/ab198604/article/details/8271860

http://www.cnblogs.com/shishanyuan/category/709023.html

http://zhidao.baidu.com/link?url=K6w-swVrs7VtvcG8iF1UgQ4dBk3e7YCHoRwA3kjcA3D4fiE2RYdKQNN5h9NJCgg7z5HEvyu7Gyt1jLe7-UMvmGbRoISDTIN6MkcVPM2vbOa

http://blog.csdn.net/tralonzhang/article/details/7773824

http://www.cnblogs.com/shishanyuan/p/4177908.html

http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_user_guide.html



文件列表为:


CentOS-6.5-x86_64-bin-DVD1.iso

hadoop-2.6.4.tar.gz

jdk-8u77-linux-x64.rpm

putty_V0.63.0.0.43510830.exe