hadoop伪分布式安装

原创

mob64ca12ef217e 2023-09-10 05:48:29 ©著作权

文章标签 Hadoop xml hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12ef217e的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop伪分布式安装

简介

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的分布式存储和处理。在使用Hadoop之前，我们需要先进行安装和配置。本文将介绍如何在本地环境中进行Hadoop的伪分布式安装。

环境准备

在开始安装之前，我们需要准备以下环境：

Java开发环境：确保已经安装了JDK，并配置了JAVA_HOME环境变量。
Hadoop安装包：从官方网站上下载最新版的Hadoop安装包。

安装步骤

步骤1：解压Hadoop安装包

首先，将下载的Hadoop安装包解压到指定目录下。可以使用以下命令解压：

tar -xzvf hadoop-3.3.0.tar.gz

步骤2：配置环境变量

接下来，我们需要配置一些环境变量，以便正确地运行Hadoop。

在终端中，打开~/.bashrc文件，添加以下内容：

# Hadoop相关配置
export HADOOP_HOME=/path/to/hadoop-3.3.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件后，运行以下命令使配置生效：

source ~/.bashrc

步骤3：配置Hadoop

Hadoop的配置文件位于$HADOOP_CONF_DIR目录下。我们需要编辑一些配置文件，以适应我们的伪分布式环境。

3.1 core-site.xml

首先，编辑core-site.xml文件，设置Hadoop的核心配置。

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

3.2 hdfs-site.xml

接下来，编辑hdfs-site.xml文件，配置Hadoop分布式文件系统（HDFS）的相关属性。

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/path/to/hadoop-3.3.0/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/path/to/hadoop-3.3.0/data/datanode</value>
  </property>
</configuration>

请确保将/path/to/hadoop-3.3.0替换为实际的Hadoop安装路径。

3.3 mapred-site.xml

然后，编辑mapred-site.xml文件，配置Hadoop的MapReduce框架属性。

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

3.4 yarn-site.xml

最后，编辑yarn-site.xml文件，设置YARN资源管理器的配置。

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
</configuration>

步骤4：格式化HDFS

在启动HDFS之前，我们需要先格式化它。运行以下命令：

hdfs namenode -format

步骤5：启动Hadoop

现在，我们可以启动Hadoop并运行伪分布式模式。运行以下命令：

start-dfs.sh
start-yarn.sh

步骤6：验证安装

使用以下命令验证Hadoop是否正确安装：

hdfs dfs -mkdir /test
hdfs dfs -ls /

如果没有报错，并且输出中包含/test目录，则说明Hadoop已经成功安

上一篇：java 头部添加容器

下一篇：docker run的同时查看具体日志

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯