一、Hadoop集群安装

1、解压文件


目录可以根据情况自定义 /opt/

tar zxvf hadoop-2.7.4.tar.gz

并在主目录下创建 tmp、dfs、dfs/name、dfs/node、dfs/data

2、配置文件


配置都在主节点机器上进行

目录:/opt/hadoop-2.7.4/etc/hadoop

2.1、编辑 hadoop-env.sh

修改 JAVA_HOME 配置项为 JDK 安装目录

export JAVA_HOME=/opt/jdk1.8.0_66

Hadoop运行首个mapreduse任务 hadoop.home.dir_xml

2.2、编辑 core-site.xml 

添加以下内容,其中 cloud31为计算机名/opt/hadoop-2.7.4/tmp 为手动创建的目录

<configuration>
<property> 
  <name>fs.defaultFS</name> 
cloud31:9000</value> 
 </property> 
 <property> 
  <name>io.file.buffer.size</name> 
  <value>131072</value> 
 </property> 
 <property> 
  <name>hadoop.tmp.dir</name> 
opt/hadoop-2.7.4/tmp</value> 
  <description>Abasefor other temporary directories.</description> 
 </property> 
 <property> 
  <name>hadoop.proxyuser.spark.hosts</name> 
  <value>*</value> 
 </property> 
<property> 
  <name>hadoop.proxyuser.spark.groups</name> 
  <value>*</value> 
 </property>
</configuration>

2.3、编辑 hdfs-site.xml

添加以下内容其中cloud31为计算机名,file:/opt/hadoop-2.7.4/dfs/name和file:/opt/hadoop-2.7.4/dfs/data为手动创建目录

<configuration>
<property> 
  <name>dfs.namenode.secondary.http-address</name> 
cloud31:9001</value> 
 </property> 
  <property> 
   <name>dfs.namenode.name.dir</name> 
/opt/hadoop-2.7.4/dfs/name</value> 
 </property> 
 <property> 
  <name>dfs.datanode.data.dir</name> 
/opt/hadoop-2.7.4/dfs/data</value> 
  </property> 
 <property> 
  <name>dfs.replication</name> 
  <value>3</value> 
 </property> 
 <property> 
  <name>dfs.webhdfs.enabled</name> 
  <value>true</value> 
 </property> 
</configuration>

2.4、编辑mapred-site.xml

复制mapred-site.xml.template并重命名为mapred-site.xml

命令:cp mapred-site.xml.template mapred-site.xml

添加以下配置:

<configuration>
<property> 
   <name>mapreduce.framework.name</name> 
   <value>yarn</value> 
 </property> 
 <property> 
  <name>mapreduce.jobhistory.address</name> 
cloud31:10020</value> 
 </property> 
 <property> 
  <name>mapreduce.jobhistory.webapp.address</name> 
cloud31:19888</value> 
 </property>
</configuration>

2.5、编辑yarn-site.xml

添加以下内容:

<configuration>
<property> 
   <name>yarn.nodemanager.aux-services</name> 
   <value>mapreduce_shuffle</value> 
  </property> 
  <property> 
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
   <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.address</name> 
cloud31:8032</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.scheduler.address</name> 
cloud31:8030</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.resource-tracker.address</name> 
   <value>cloud31:8035</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.admin.address</name> 
cloud31:8033</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.webapp.address</name> 
cloud31:8088</value> 
  </property>  
</configuration>

2.6、修改slaves

添加本机作为集群节点 将三台机器名添加进去主节点第一个

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_02

3、集群搭建Hadoop

 

直接将最开始解压 配置好的Hadoop 用命令复制到另外两台子节点机器上

命令:scp -r hadoop-2.7.4 root@另一台机ip:/opt

4、启动

1、格式化一个新的文件系统,进入到hadoop-2.6.5/bin下执行:

./hadoop namenode -format

2、启动hadoop,进入到hadoop-2.6.5/sbin下执行:

./start-all.sh

2、关闭hadoop,进入到hadoop-2.6.5/sbin下执行:

./stop-all.sh

5、验证

http://192.168.7.2:50070/dfshealth.html#tab-datanode

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_03

命令 jps

会显示Hadoop进程


二、Zookpeer集群安装

 

1.1、下载ZooKeeper(zookeeper-3.4.10.tar.gz),放到opt目录下在主节点机器上完成配置

命令:tar -zxvf zookeeper-3.4.10.tar.gz

1.2、进入解压后的的zookeeper-3.4.10下目录,创建存储数据目录zkdata

1.3、进入zookeeper/conf目录,复制zoo_sample.cfg并重命名为zoo.cfg

命令:cp zoo_sample.cfg zoo.cfg

1.4、修改zoo.cfg文件,修改dataDir为我们新创建地址,并增加其他zookeeper节点

dataDir=/opt/zookeeper-3.4.10/zkdata

server.1=192.168.20.122:2888:3888

server.2=192.168.20.123:2888:3888

server.3=192.168.20.124:2888:3888

主:只需要修改自己的ip 名称和端口不变

server.1 为主节点 其他的为子节点

1.5、进入zkdata目录,新建一个文件myid文件,写入标识ID即可,ID与上面server.X相     匹配

主节点 myid 的内容为1  另外两个分别是 2 和 3

1.6、同步到另外两台字节点机器目录保持一致

scp -r zookeeper-3.4.10 root@另一台机ip:/opt

同步之后 要将1.5的myid的配置修改 内容分别是2和3

1.7、在三台机器上分别手动一个个启动ZooKeeper,进入/opt/zookeeper-3.4.10/bin目录

注意:三个都启动完成后 再查看状态,否则会显示未启动

bin 目录下:  启动:./zkServer.sh start

查看:./zkServer.sh status

关闭:./zkServer.sh stop

命令 jps

会显示zookeeper进程


三、Hbase集群安装

解压文件

  1. 下载HBase(hbase-1.3.1.tar.gz),放到opt目录下

tar -zxvf hbase-1.3.1.tar.gz

    2.文件配置


         1、  进入hbase-1.3.1的conf目录

         2、编辑hbase-env.sh

          添加Java环境变量并关闭HBase自带的Zookeeper和Hadoop的目录

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_04

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_05

 

3、编辑hbase-site.xml

添加如下配置

<configuration>
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://cloud31:9000/hbase</value>
        </property>
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
        <property>
                <name>hbase.master</name>
                <value>cloud31:60000</value>
        </property>
        <property>
                <name>hbase.regionserver.handler.count</name>
                <value>100</value>
        </property>
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>cloud31:2181,cloud32:2181,cloud33:2181</value>
        </property>
        <property>
            <name>hbase.zoopkeeper.property.dataDir</name>
            <value>/opt/zookeeper-3.4.10/zkdata</value>
        </property>
</configuration>

4、编辑regionservers

将三台机器的主机名添加其中

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_06

5、配置hdfs-site.xml

将2.3已经配置好的 文件复制到/opt/hbase-1.3.1/conf 目录下

命令:  cd /opt/hadoop-2.7.4/etc/hadoop

cp /opt/hadoop-2.7.4/etc/hadoop/hdfs-site.xml /opt/hbase-1.3.1/conf

6、配置core-site.xml

将2.2已经配置好的 文件复制到/opt/hbase-1.3.1/conf 目录下

命令:  cd /opt/hadoop-2.7.4/etc/hadoop

cp /opt/hadoop-2.7.4/etc/hadoop/core-site.xml /opt/hbase-1.3.1/conf

1.集群搭建hbase

同Hadoop一样,在主节点机器上配置完成后同步到另外两台子节点机器

命令:scp -r hbase-1.3.1 root@另一台机ip:/opt

2.启动

bin目录下,只需要只主节点机器执行以下命令,完成HBase集群启动

启动:./start-hbase.sh

关闭:./stop-hbase.sh

 3.验证

http://192.168.7.2:16010/master-status

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_07

命令 jps

会显示hbase进程

Hadoop运行首个mapreduse任务 hadoop.home.dir_zookeeper_08

红色框为 Hbase进程  缺一不可

绿色框为 Zookeeper进程  缺一不可

其他的为 Hadoop进程

测试:

cd /opt/hbase-1.3.1/bin

hbase shell

进入hbase数据库命令模式

命令:

建表
create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
查看有哪些表
list
插入
put 't1', 'r1', 'f1', 'v1'
 put 't1', 'r2', 'f2', 'v2'
 put 't1', 'r3', 'f3', 'v3'查询
scan 't1'
删除表
disable 't1'
drop 't1'