下载Hadoop文件之后,解压之后建议将Hadoop的bin目录配置到PATH环境变量,然后进到Hadoop的conf目录对Hadoop进行伪分布式配置,最简单的是四个配置,配置步骤如下:

(1)配置core-site.xml

这个配置是Hadoop的核心配置,至少需要配置HDFS的地址及端口号,这里使用下面最简单的配置方法:

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000/</value>
    </property>
</configuration>

fs.default.name用于指定NameNode的IP地址和端口号,localhost就是HDFS NameNode的地址,9000是HDFS的NameNode RPC交互端口。

(2)配置hdfs-site.xml

这里主要配置HDFS的相关属性参数,简单配置如下:

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///root/hdfs/namenode</value>
        <description>NameNode directory for namespace and transaction logs storage.</description>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///root/hdfs/datanode</value>
        <description>DataNode directory</description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

dfs.replicationyo用于指定HDFS中每个Block块碑复制的次数,起到数据冗余备份的作用。在典型的生产系统中,这个数常被设置为3,这里是伪分布式,只有一个节点,因此设置为2。dfs.namenode.name.dir用于配置HDFS的NameNode的元数据,以逗号隔开,HDFS会把元数据冗余复制到这些目录下。dfs.datanode.data.dir用于配置HDFS的DataNode的数据目录,以逗号隔开,HDFS会把数据存在这些目录下。这两个配置默认都在tmp目录下,建议用户在配置时使用自己创建的目录即可。

(3)配置map-site.xml

配置map-site.xml的d代码如下

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

这里主要配置yarn作为MapReduce的配置

(4)配置hadoop-env.sh

hadoop-env.sh用于配置集群特有的变量值,这里至少需要配置JAVA_HOME环境变量