Hadoop伪分布式的搭建

原创

飝鱻? 2021-08-03 10:12:45 博主文章分类：hadoop ©著作权

文章标签 hadoop 分布式 linux hdfs 大数据 文章分类 运维

©著作权归作者所有：来自51CTO博客作者飝鱻?的原创作品，请联系作者获取转载授权，否则将追究法律责任

伪分布式：并不是真正的分布式，是将多台机器的任务放到一台机器上运行

一、安装jdk

1. 解压安装包

tar -zxvf jdk-8u161-linux-x64.tar.gz

2. 配置jdk环境变量

export JAVA_HOME=/home/java/jdk1.8.0_161
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=${JAVA_HOME}/bin:$PATH

3. 检验是否安装成功
输入java -version
Hadoop伪分布式的搭建_hadoop
出现上述图片即可

二、安装Hadoop及配置文件

1. 解压安装包

tar -zxvf hadoop-2.7.1_64bit.tar.gz

在解压完的安装包里创建俩个目录
创建存储临时文件的目录mkdir tmp
创建日志目录mkdir logs

Hadoop伪分布式的搭建_linux_02

2. 配置hadoop环境变量

export HADOOP_HOME=/home/hadoop/hadoop-2.7.1
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH

输入hadoop version验证是否安装成功

3. 配置hadoop-env.sh
Hadoop伪分布式的搭建_linux_04
这里是刚才JDK的安装路径

4. 配置core.site.xml

第一个属性用来指定HDFS老大得地址，也就是NameNode的地址
value值是主机名加端口号，如果在host文件中添加了主机名和ip映射，主机名也可以用ip地址替换
第二个属性用来指定hadoop运行时产生临时文件的路径

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-2.7.1/tmp</value>
    </property>

5. 配置hdfs.site.xml

指定hdfs保存数据的副本数量，如果是2,总共有2份，因为是伪分布式，所以是1

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

6. 配置mapred-site.xml文件

如果没有mapred-site.xml，可以使用命令将mapred-site.xml.template 重命名mv mapred-site.xml.template mapred-site.xml

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
     </property>

这是指定mapreduce使用yarn框架

7. 配置yarn.site.xml文件

     <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
     </property>
     <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
     </property>