Hadoop运行首个mapreduse任务 hadoop.home.dir

转载

mob64ca1402d47a 2023-10-16 13:02:19

文章标签 hadoop hbase 大数据 xml zookeeper 文章分类 Hadoop 大数据

一、Hadoop集群安装

1、解压文件

目录可以根据情况自定义 /opt/

tar zxvf hadoop-2.7.4.tar.gz

并在主目录下创建 tmp、dfs、dfs/name、dfs/node、dfs/data

2、配置文件

配置都在主节点机器上进行

目录：/opt/hadoop-2.7.4/etc/hadoop

2.1、编辑 hadoop-env.sh

修改 JAVA_HOME 配置项为 JDK 安装目录

export JAVA_HOME=/opt/jdk1.8.0_66

Hadoop运行首个mapreduse任务 hadoop.home.dir_xml

2.2、编辑 core-site.xml

添加以下内容，其中 cloud31为计算机名/opt/hadoop-2.7.4/tmp 为手动创建的目录

<configuration>
<property> 
  <name>fs.defaultFS</name> 
cloud31:9000</value> 
 </property> 
 <property> 
  <name>io.file.buffer.size</name> 
  <value>131072</value> 
 </property> 
 <property> 
  <name>hadoop.tmp.dir</name> 
opt/hadoop-2.7.4/tmp</value> 
  <description>Abasefor other temporary directories.</description> 
 </property> 
 <property> 
  <name>hadoop.proxyuser.spark.hosts</name> 
  <value>*</value> 
 </property> 
<property> 
  <name>hadoop.proxyuser.spark.groups</name> 
  <value>*</value> 
 </property>
</configuration>

2.3、编辑 hdfs-site.xml

添加以下内容其中cloud31为计算机名，file:/opt/hadoop-2.7.4/dfs/name和file:/opt/hadoop-2.7.4/dfs/data为手动创建目录

<configuration>
<property> 
  <name>dfs.namenode.secondary.http-address</name> 
cloud31:9001</value> 
 </property> 
  <property> 
   <name>dfs.namenode.name.dir</name> 
/opt/hadoop-2.7.4/dfs/name</value> 
 </property> 
 <property> 
  <name>dfs.datanode.data.dir</name> 
/opt/hadoop-2.7.4/dfs/data</value> 
  </property> 
 <property> 
  <name>dfs.replication</name> 
  <value>3</value> 
 </property> 
 <property> 
  <name>dfs.webhdfs.enabled</name> 
  <value>true</value> 
 </property> 
</configuration>

2.4、编辑mapred-site.xml

复制mapred-site.xml.template并重命名为mapred-site.xml

命令：cp mapred-site.xml.template mapred-site.xml

添加以下配置：

<configuration>
<property> 
   <name>mapreduce.framework.name</name> 
   <value>yarn</value> 
 </property> 
 <property> 
  <name>mapreduce.jobhistory.address</name> 
cloud31:10020</value> 
 </property> 
 <property> 
  <name>mapreduce.jobhistory.webapp.address</name> 
cloud31:19888</value> 
 </property>
</configuration>

2.5、编辑yarn-site.xml

添加以下内容：

<configuration>
<property> 
   <name>yarn.nodemanager.aux-services</name> 
   <value>mapreduce_shuffle</value> 
  </property> 
  <property> 
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
   <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.address</name> 
cloud31:8032</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.scheduler.address</name> 
cloud31:8030</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.resource-tracker.address</name> 
   <value>cloud31:8035</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.admin.address</name> 
cloud31:8033</value> 
  </property> 
  <property> 
   <name>yarn.resourcemanager.webapp.address</name> 
cloud31:8088</value> 
  </property>  
</configuration>

2.6、修改slaves

添加本机作为集群节点将三台机器名添加进去主节点第一个

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_02

3、集群搭建Hadoop

直接将最开始解压配置好的Hadoop 用命令复制到另外两台子节点机器上

命令：scp -r hadoop-2.7.4 root@另一台机ip:/opt

4、启动

1、格式化一个新的文件系统，进入到hadoop-2.6.5/bin下执行：

./hadoop namenode -format

2、启动hadoop，进入到hadoop-2.6.5/sbin下执行：

./start-all.sh

2、关闭hadoop，进入到hadoop-2.6.5/sbin下执行：

./stop-all.sh

5、验证

http://192.168.7.2:50070/dfshealth.html#tab-datanode

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_03

命令 jps

会显示Hadoop进程

二、Zookpeer集群安装

1.1、下载ZooKeeper（zookeeper-3.4.10.tar.gz）,放到opt目录下在主节点机器上完成配置

命令：tar -zxvf zookeeper-3.4.10.tar.gz

1.2、进入解压后的的zookeeper-3.4.10下目录，创建存储数据目录zkdata

1.3、进入zookeeper/conf目录，复制zoo_sample.cfg并重命名为zoo.cfg

命令：cp zoo_sample.cfg zoo.cfg

1.4、修改zoo.cfg文件，修改dataDir为我们新创建地址，并增加其他zookeeper节点

dataDir=/opt/zookeeper-3.4.10/zkdata

server.1=192.168.20.122:2888:3888

server.2=192.168.20.123:2888:3888

server.3=192.168.20.124:2888:3888

主：只需要修改自己的ip 名称和端口不变

server.1 为主节点其他的为子节点

1.5、进入zkdata目录，新建一个文件myid文件，写入标识ID即可，ID与上面server.X相匹配

主节点 myid 的内容为1 另外两个分别是 2 和 3

1.6、同步到另外两台字节点机器目录保持一致

scp -r zookeeper-3.4.10 root@另一台机ip:/opt

同步之后要将1.5的myid的配置修改内容分别是2和3

1.7、在三台机器上分别手动一个个启动ZooKeeper，进入/opt/zookeeper-3.4.10/bin目录

注意：三个都启动完成后再查看状态，否则会显示未启动

bin 目录下：启动：./zkServer.sh start

查看：./zkServer.sh status

关闭：./zkServer.sh stop

命令 jps

会显示zookeeper进程

三、Hbase集群安装

解压文件

下载HBase（hbase-1.3.1.tar.gz），放到opt目录下

tar -zxvf hbase-1.3.1.tar.gz

2.文件配置

1、进入hbase-1.3.1的conf目录

2、编辑hbase-env.sh

添加Java环境变量并关闭HBase自带的Zookeeper和Hadoop的目录

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_04

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_05

3、编辑hbase-site.xml

添加如下配置

<configuration>
        <property>
                <name>hbase.rootdir</name>
                <value>hdfs://cloud31:9000/hbase</value>
        </property>
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
        <property>
                <name>hbase.master</name>
                <value>cloud31:60000</value>
        </property>
        <property>
                <name>hbase.regionserver.handler.count</name>
                <value>100</value>
        </property>
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>cloud31:2181,cloud32:2181,cloud33:2181</value>
        </property>
        <property>
            <name>hbase.zoopkeeper.property.dataDir</name>
            <value>/opt/zookeeper-3.4.10/zkdata</value>
        </property>
</configuration>

4、编辑regionservers

将三台机器的主机名添加其中

Hadoop运行首个mapreduse任务 hadoop.home.dir_大数据_06

5、配置hdfs-site.xml

将2.3已经配置好的文件复制到/opt/hbase-1.3.1/conf 目录下

命令： cd /opt/hadoop-2.7.4/etc/hadoop

cp /opt/hadoop-2.7.4/etc/hadoop/hdfs-site.xml /opt/hbase-1.3.1/conf

6、配置core-site.xml

将2.2已经配置好的文件复制到/opt/hbase-1.3.1/conf 目录下

命令： cd /opt/hadoop-2.7.4/etc/hadoop

cp /opt/hadoop-2.7.4/etc/hadoop/core-site.xml /opt/hbase-1.3.1/conf

1.集群搭建hbase

同Hadoop一样，在主节点机器上配置完成后同步到另外两台子节点机器

命令：scp -r hbase-1.3.1 root@另一台机ip:/opt

2.启动

bin目录下，只需要只主节点机器执行以下命令，完成HBase集群启动

启动：./start-hbase.sh

关闭：./stop-hbase.sh

3.验证

http://192.168.7.2:16010/master-status

Hadoop运行首个mapreduse任务 hadoop.home.dir_hadoop_07

命令 jps

会显示hbase进程

Hadoop运行首个mapreduse任务 hadoop.home.dir_zookeeper_08

红色框为 Hbase进程缺一不可

绿色框为 Zookeeper进程缺一不可

其他的为 Hadoop进程

测试：

cd /opt/hbase-1.3.1/bin

hbase shell

进入hbase数据库命令模式

命令：

建表
create 't1', {NAME => 'f1', VERSIONS => 1}, {NAME => 'f2', VERSIONS => 1}, {NAME => 'f3', VERSIONS => 1}
查看有哪些表
list
插入
put 't1', 'r1', 'f1', 'v1'
 put 't1', 'r2', 'f2', 'v2'
 put 't1', 'r3', 'f3', 'v3'查询
scan 't1'
删除表
disable 't1'
drop 't1'

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：clob类型对应java什么类型 clob类型怎么用

下一篇：MySQL怎么解决幻读问题的 mysql 幻读间隙锁

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯