一、Hadoop集群安装
1、解压文件
目录可以根据情况自定义 /opt/
tar zxvf hadoop-2.7.4.tar.gz
并在主目录下创建 tmp、dfs、dfs/name、dfs/node、dfs/data
2、配置文件
配置都在主节点机器上进行
目录:/opt/hadoop-2.7.4/etc/hadoop
2.1、编辑 hadoop-env.sh
修改 JAVA_HOME 配置项为 JDK 安装目录
export JAVA_HOME=/opt/jdk1.8.0_66
2.2、编辑 core-site.xml
添加以下内容,其中 cloud31为计算机名/opt/hadoop-2.7.4/tmp 为手动创建的目录
<configuration>
<property>
<name>fs.defaultFS</name>
cloud31:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
opt/hadoop-2.7.4/tmp</value>
<description>Abasefor other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.spark.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.spark.groups</name>
<value>*</value>
</property>
</configuration>
2.3、编辑 hdfs-site.xml
添加以下内容其中cloud31为计算机名,file:/opt/hadoop-2.7.4/dfs/name和file:/opt/hadoop-2.7.4/dfs/data为手动创建目录
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
cloud31:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
/opt/hadoop-2.7.4/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
/opt/hadoop-2.7.4/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
2.4、编辑mapred-site.xml
复制mapred-site.xml.template并重命名为mapred-site.xml
命令:cp mapred-site.xml.template mapred-site.xml
添加以下配置:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
cloud31:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
cloud31:19888</value>
</property>
</configuration>
2.5、编辑yarn-site.xml
添加以下内容:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
cloud31:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
cloud31:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>cloud31:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
cloud31:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
cloud31:8088</value>
</property>
</configuration>
2.6、修改slaves
添加本机作为集群节点 将三台机器名添加进去主节点第一个
3、集群搭建Hadoop
直接将最开始解压 配置好的Hadoop 用命令复制到另外两台子节点机器上
命令:scp -r hadoop-2.7.4 root@另一台机ip:/opt
4、启动
1、格式化一个新的文件系统,进入到hadoop-2.6.5/bin下执行:
./hadoop namenode -format
2、启动hadoop,进入到hadoop-2.6.5/sbin下执行:
./start-all.sh
2、关闭hadoop,进入到hadoop-2.6.5/sbin下执行:
./stop-all.sh
5、验证
http://192.168.7.2:50070/dfshealth.html#tab-datanode
命令 jps
会显示Hadoop进程
二、Zookpeer集群安装
1.1、下载ZooKeeper(zookeeper-3.4.10.tar.gz),放到opt目录下在主节点机器上完成配置
命令:tar -zxvf zookeeper-3.4.10.tar.gz
1.2、进入解压后的的zookeeper-3.4.10下目录,创建存储数据目录zkdata
1.3、进入zookeeper/conf目录,复制zoo_sample.cfg并重命名为zoo.cfg
命令:cp zoo_sample.cfg zoo.cfg
1.4、修改zoo.cfg文件,修改dataDir为我们新创建地址,并增加其他zookeeper节点
dataDir=/opt/zookeeper-3.4.10/zkdata
server.1=192.168.20.122:2888:3888
server.2=192.168.20.123:2888:3888
server.3=192.168.20.124:2888:3888
主:只需要修改自己的ip 名称和端口不变
server.1 为主节点 其他的为子节点
1.5、进入zkdata目录,新建一个文件myid文件,写入标识ID即可,ID与上面server.X相 匹配
主节点 myid 的内容为1 另外两个分别是 2 和 3
1.6、同步到另外两台字节点机器目录保持一致
scp -r zookeeper-3.4.10 root@另一台机ip:/opt
同步之后 要将1.5的myid的配置修改 内容分别是2和3
1.7、在三台机器上分别手动一个个启动ZooKeeper,进入/opt/zookeeper-3.4.10/bin目录
注意:三个都启动完成后 再查看状态,否则会显示未启动
bin 目录下: 启动:./zkServer.sh start
查看:./zkServer.sh status
关闭:./zkServer.sh stop
命令 jps
会显示zookeeper进程
三、Hbase集群安装
解压文件
- 下载HBase(hbase-1.3.1.tar.gz),放到opt目录下
tar -zxvf hbase-1.3.1.tar.gz
2.文件配置
1、 进入hbase-1.3.1的conf目录
2、编辑hbase-env.sh
添加Java环境变量并关闭HBase自带的Zookeeper和Hadoop的目录
3、编辑hbase-site.xml
添加如下配置
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://cloud31:9000/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.master</name>
<value>cloud31:60000</value>
</property>
<property>
<name>hbase.regionserver.handler.count</name>
<value>100</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>cloud31:2181,cloud32:2181,cloud33:2181</value>
</property>
<property>
<name>hbase.zoopkeeper.property.dataDir</name>
<value>/opt/zookeeper-3.4.10/zkdata</value>
</property>
</configuration>
4、编辑regionservers
将三台机器的主机名添加其中
5、配置hdfs-site.xml
将2.3已经配置好的 文件复制到/opt/hbase-1.3.1/conf 目录下
命令: cd /opt/hadoop-2.7.4/etc/hadoop
cp /opt/hadoop-2.7.4/etc/hadoop/hdfs-site.xml /opt/hbase-1.3.1/conf
6、配置core-site.xml
将2.2已经配置好的 文件复制到/opt/hbase-1.3.1/conf 目录下
命令: cd /opt/hadoop-2.7.4/etc/hadoop
cp /opt/hadoop-2.7.4/etc/hadoop/core-site.xml /opt/hbase-1.3.1/conf
1.集群搭建hbase
同Hadoop一样,在主节点机器上配置完成后同步到另外两台子节点机器
命令:scp -r hbase-1.3.1 root@另一台机ip:/opt
2.启动
bin目录下,只需要只主节点机器执行以下命令,完成HBase集群启动
启动:./start-hbase.sh
关闭:./stop-hbase.sh
3.验证
http://192.168.7.2:16010/master-status
命令 jps
会显示hbase进程
红色框为 Hbase进程 缺一不可
绿色框为 Zookeeper进程 缺一不可
其他的为 Hadoop进程
测试:
cd /opt/hbase-1.3.1/bin
hbase shell
进入hbase数据库命令模式
命令:
建表
create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
查看有哪些表
list
插入
put 't1', 'r1', 'f1', 'v1'
put 't1', 'r2', 'f2', 'v2'
put 't1', 'r3', 'f3', 'v3'查询
scan 't1'
删除表
disable 't1'
drop 't1'