hadoop伪分布式没有启动 hadoop伪分布式模式

转载

mob6454cc6b8546 2023-07-24 13:28:18

文章标签 hadoop伪分布式没有启动 hadoop 伪分布模式 Hadoop xml 文章分类 Hadoop 大数据

本文将讲解在Linux下以伪分布模式配置Hadoop，网上的方案大致都试了试，期间各种报错，现在解决了，所以整理一版本人觉得比较简洁的方案出来。

1. Hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

既然Hadoop能处理海量处理，那么，肯定有一个存储过程和处理过程。即，Hadoop的框架最核心的设计就是：HDFS和MapReduce。

存储
分布式文件系统：HDFS，hadoop distributed file system.
运算
mapreduce : map + reduce

下面将讲解Hadoop的伪分布配置模式。

2. 伪分布模式

伪分布式模式下，Hadoop将所有进程运行于同一台主机上，但此时Hadoop将使用分布式文件系统，而且各jobs也是由JobTracker服务管理的独立进程。同时，由于伪分布式的Hadoop集群只有一个节点，因此HDFS的块复制将限制为单个副本，其secondary-master和slave也都将运行于本地主机。此种模式除了并非真正意义的分布式之外，其程序执行逻辑完全类似于完全分布式，因此，常用于开发人员测试程序执行。

hadoop的配置共有四种级别：集群、进程、作业和单独操作，前两类由集群管理员负责配置，后面的两类则属于程序员的工作范畴。

hadoop的配置文件位于conf目录中，其中的core-site.xml、mapred-site.xml和hdfs-site.xml三个配置文件最为关键。core-site.xml用于配置hadoop集群的特性，它作用于全部进程及客户端，mapred-site.xml配置mapreduce集群的工作属性，hdfs-site.xml配置hdfs集群的工作属性。

3. 配置hadoop文件

首先进入目录：

hadoop伪分布式没有启动 hadoop伪分布式模式_伪分布模式

编辑core-site.xml文件：

sudo vim core-site.xml

修改为如下内容（这里是设置主机名称和地址和tmp目录的位置）

<configuration>
    <property>
         <name>hadoop.tmp.dir</name>
         <value>file:/usr/soft/hadoop/hadoop-2.7.4/tmp</value>
         <description>Abase for other temporary directories.</description>
    </property>
    <property>
         <name>fs.defaultFS</name>
         <value>hdfs://localhost:9000</value>
    </property>
</configuration>

编辑hdfs-site.xml文件：

sudo vim hdfs-site.xml

修改为如下内容(设置副本数量,伪分布为1,并设置datanode和namenode的目录路)：

<configuration>
    <property>
         <name>dfs.replication</name>
         <value>1</value>
    </property>
    <property>
         <name>dfs.namenode.name.dir</name>
         <value>file:/usr/soft/hadoop/hadoop-2.7.4/tmp/dfs/name</value>
    </property>
    <property>
         <name>dfs.datanode.data.dir</name>
         <value>file:/usr/soft/hadoop/hadoop-2.7.4/tmp/dfs/data</value>
    </property>
</configuration>

编辑mapred-site.xml文件：

sudo vim mapred-site.xml

修改为如下内容

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>

    <property>  
        <name>mapred.local.dir</name>  
        <value>/usr/soft/hadoop/hadoop-2.7.4/tmpdir/mapred/local</value>  
    </property>  

    <property>  
        <name>mapred.system.dir</name>  
        <value>/usr/soft/hadoop/hadoop-2.7.4/tmpdir/mapred/system</value>  
    </property>

</configuration>

编辑yarn-site.xml 文件：

sudo vim yarn-site.xml

修改为如下内容

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>    
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>    
    </property>
</configuration>