大数据Hadoop运行环境搭建

原创

程序员老陆 2021-03-25 17:56:13 博主文章分类：hadoop ©著作权

文章标签 hadoop big data hdfs mapreduce 子目录 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者程序员老陆的原创作品，请联系作者获取转载授权，否则将追究法律责任

1.1 单机模式（standalone）

单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

1.2 伪分布模式（Pseudo-Distributed Mode）

伪分布模式在“单节点集群”上运行Hadoop，其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入输出，以及其他的守护进程交互。简单的说就是主从都是一台机器,修改主机名即可,在hosts文件中进行主机的注册(tips:如果不注册在启动Hadoop时候报错),之后就是集群操作,只不过在workers不同而已

1.3 全分布模式（Fully Distributed Mode）

Hadoop守护进程运行在一个集群上。以下搭建为纯分布式集群搭建

1.4 配置完成三台虚拟机

大数据Hadoop运行环境搭建_hadoop
这三台虚拟机只配置了jdk,固定ip,配置hosts,主机名

2 Hadoop的安装与配置

其实每一个节点的安装和配置是相同的。实际工作中，通常在Master上完成安装和配置后，然后将安装目录复制到其他节点即可。这里的所有操作都使用普通用户权限。

2.1 解压Hadoop安装包

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.0/hadoop-3.1.0.tar.gz是下载Hadoop 3.1压缩包的官方地址。读者自行找到Hadoop-3.1.0.tar.gz文件，请将其复制到Master的“/home/csu”下的resources子目录内（可以直接拖曳）。注意，这里使用普通用户权限。
大数据Hadoop运行环境搭建_mapreduce_02
首先将Hadoop-3.1.0.tar.gz文件复制到安装目录的上一级目录，我们这里指定为“/home/csu”，执行“cp /home/csu/resources/hadoop-3.1.0.tar.gz ~/”命令。
大数据Hadoop运行环境搭建_big data_03 按解压缩hadoop-3.1.0.tar.gz文件，屏幕上会不断显示解压过程的信息，执行成功后，系统将在csu目录下自动创建hadoop-3.1.0子目录，即Hadoop的安装目录。我们进入Hadoop的安装目录查看一下安装文件，如果显示如图4-7所示的文件列表，说明解压缩成功。
大数据Hadoop运行环境搭建_mapreduce_04
大数据Hadoop运行环境搭建_big data_05

大数据Hadoop运行环境搭建_big data_06

bin目录的内容:
大数据Hadoop运行环境搭建_hadoop_07

sbin管理集群的内容:
大数据Hadoop运行环境搭建_big data_08

2.2 配置Hadoop环境变量

Hadoop环境变量文件是hadoop-env.sh，它位于“~/hadoop-3.1.0/etc/hadoop”子目录下，我们只需要配置该文件的JDK路径即可。用gedit编辑器修改hadoop-env.sh文件。
大数据Hadoop运行环境搭建_mapreduce_09

在文件的前面找到“# export JAVA_HOME=”代码，将其修改为实际的JDK安装路径，即输入export JAVA_HOME=/usr/local/jdk1.8.0_171。大数据Hadoop运行环境搭建_hdfs_10

2.3 配置Yarn环境变量

Yarn环境变量文件是yarn-env.sh，也位于“~/hadoop-3.1.0/etc/hadoop”子目录下。对于早期版本的Hadoop，如Hadoop 2.6.0，我们需要配置该文件的JDK路径；可使用gedit编辑器修改yarn-env.sh文件和上述操作一样配置java.

Hadoop 3.1版本不需要在yarn-env.sh中配置Java路径了，因为Hodoop 3.1统一使用hadoop-env.sh中的Java路径。yarn-env.sh的其他配置可以暂时采用默认值（即目前可不编辑该文件）。

2.4 配置核心组件

Hadoop的核心组件文件是core-site.xml，也位于“~/hadoop-3.1.0/etc/hadoop”子目录下。使用gedit编辑器修改core-site.xml文件。
大数据Hadoop运行环境搭建_子目录_11

需要将下面的配置代码放在文件的<configuration>和</configuration >之间。

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property> 
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/csu/hadoopdata</value>
</property>

大数据Hadoop运行环境搭建_子目录_12

配置完毕后，保存退出即可。

2.5 配置文件系统

Hadoop文件系统的配置文件是hdfs-site.xml，也位于“~/hadoop-3.1.0/etc/hadoop”子目录下。使用gedit编辑器修改该文件。
需要将下面的代码填充到文件的<configuration>和</configuration>之间。

<property>
    <name>dfs.replication</name> 
    <value>1</value>
</property>

大数据Hadoop运行环境搭建_big data_13

实际上，这里的dfs.replication就是HDFS数据块的副本数。我们知道，系统的默认值为3，这意味着如果用户没有设置dfs.replication时，副本数是3。但是如果修改为1，那么修改以后的副本数就是1了。注意，把dfs.replication配置成超过3的数是没有意义的，因为HDFS的最大副本数是3。

2.6 配置yarn site.xml文件

配置yarn-site.xml文件需要将下面的代码填充到文件的<configuration>和</configuration>之间。

<property>
    <name>yarn.nodemanager.aux-services</name> 
    <value>mapreduce_shuffle</value>
</property> 
<property> 
    <name>yarn.resourcemanager.address</name> 
    <value>master:18040</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.scheduler.address</name> 
    <value>master:18030</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.resource-tracker.address</name> 
    <value>master:18025</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.admin.address</name> 
    <value>master:18141</value> 
</property> 
<property> 
    <name>yarn.resourcemanager.webapp.address</name>
    <value>master:18088</value>
</property>

大数据Hadoop运行环境搭建_hdfs_14

2.7 配置MapReduce计算框架文件

对于早期的Hadoop，如Hadoop 2.6.0，在“~/hadoop-2.6.0/etc/hadoop”子目录下有一个mapred-site.xml.template文件，我们需要将其复制并改名，位置不变，使用的命令是“cp ~/hadoop-2.6.0/etc/hadoop/mapred-site.xml.template ~/ ~/hadoop-2.6.0/etc/hadoop/mapred-site.xml”。

但是，Hadoop 3.1则无须上述改名操作，可直接使用getit编辑器修改mapred-site.xml文件。
需要将下面的代码填充到文件的<configuration>和</configuration>之间。

<property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property> 
   <property>
      <name>yarn.app.mapreduce.am.env</name>
      <value>HADOOP_MAPRED_HOME=/home/csu/hadoop-3.1.0</value>
   </property>
   <property>
      <name>mapreduce.map.env</name>
      <value>HADOOP_MAPRED_HOME=/home/csu/hadoop-3.1.0</value>
   </property>
   <property>
      <name>mapreduce.reduce.env</name>
      <value>HADOOP_MAPRED_HOME=/home/csu/hadoop-3.1.0</value>
   </property>

大数据Hadoop运行环境搭建_hadoop_15
与Hadoop 2.6.0比较，Hadoop 3.1中mapred-site.xml文件的内容增加了不少。Hadoop 2.6.0只需要上述代码中的第一个<property>和</property>之间的代码即可，但是，Hadoop 3.1则需要明确指出各个计算组件的环境变量。

2.8 配置Master中的workers文件

早期的Hadoop，如Hadoop 2.6.0，需要编辑slaves文件，该文件给出了Hadoop集群的Slave的列表。Slaves文件十分重要，因为在启动Hadoop时，系统是根据slaves文件中Slave列表启动集群的，不在列表中的Slave便不会被视为计算节点。Hadoop 3.1没有slaves文件，而改用workers文件，但作用是一样的。

采用gedit编辑器修改workers文件，如图4-21所示。
读者应当根据自己所搭建集群的实际情况来修改workers文件。例如，这里由于已经安装了slave0和slave1，并且计划将它们全部投入Hadoop集群运行，所以应当输入如下代码：

大数据Hadoop运行环境搭建_hdfs_16

slave0
slave1

大数据Hadoop运行环境搭建_mapreduce_17

2.9 将Master上的Hadoop复制到Slave

通过复制Master上的Hadoop，能够大大提高系统部署效率。由于这里有slave0和slave1，所以要复制两次。其中一条复制命令是“scp -r /home/csu/hadoop-3.1.0 csu@slave0:~/”。

由于我们前面已经配置了免密钥登录，因此这里不用输入密钥进行认证，按下Enter键后可立即开始复制（复制需要一些时间，请耐心等待）。

大数据Hadoop运行环境搭建_hadoop_18

至此，我们就完成了Hadoop的安装与配置。

上一篇：大数据Hadoop运行模式和常见错误

下一篇：大数据Hive入门案例

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯