1、引入hadoop

2、刚开始在服务器上配置jdk原因:java写的东西没有jdk无法运行,所以装hadoop一定要提前配jdk

3、要运行的话,需要配置几个文件,先配置环境变量(两个 bin和sbin)

环境变量放入文件:

开始配置HADOOP_HOME=/soft/hadoop

PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Export HADOOP_HOME PATH 将临时变量转为环境变量

source命令,让他生效,查看版本号,成功

然后配置配置文件(配置文件全在hadoop目录中的etc下),

需要配置core-site.xml:如果不配置,在源码包里,hadoop/common/hadoop-common-2.7.3中有默认配置:core-default.xml中有默认配置。

配置hdfs-default.xml:副本数默认为3,伪分布式情况下,一般为一份。

在创建Linux系统中,如果修改了机器名(主机名),进入cd /etc/sysconfig/,查看network:cat network,若修改了主机名,要在host文件中:vi /etc/hosts ,配映射,否则无法识别机器名。

**如果配完全分布式的情况下,同样的配置,如果有五台机器,就复制五个机器,

 

Linux下配置hadoop环境变量 linux hadoop配置_hadoop

之后在namenode的slaves下,写另外四个datanode的ip,此处localhost为本机

 

Linux下配置hadoop环境变量 linux hadoop配置_hadoop_02

 

4、现在启动,在启动之前,namenode要先格式化hadoop namenode -format

开始启动,启动命令都在 cd /soft/hadoop下的sbin下,start-dfs.sh就是启动hdfs,需要用到数据计算的时候再启动start-yarn.s

start-dfs.sh开始启动,完毕,jps查看进程:查看是否有namenode、datanode

有一个端口号50070可以通过外网访问hdfs:  192.168.71.141:50070

点击Datanodes,可以看到一个datanode,在本机,

Linux下配置hadoop环境变量 linux hadoop配置_Linux下配置hadoop环境变量_03

 

 

Utilities可以查看其目录,此时没有东西

Linux下配置hadoop环境变量 linux hadoop配置_Linux下配置hadoop环境变量_04

 

如果操作hdfs:建一个文件夹,hadoop目录

 

Linux下配置hadoop环境变量 linux hadoop配置_hadoop_05

 

再次查看

 

Linux下配置hadoop环境变量 linux hadoop配置_xml_06

查看目录

 

Linux下配置hadoop环境变量 linux hadoop配置_xml_07

Linux下配置hadoop环境变量 linux hadoop配置_xml_08

把文件存入hdfs:建一个文件,放入hdfs中

 

Linux下配置hadoop环境变量 linux hadoop配置_xml_09

可以直接查看(点进hadooop)永远按照128M切块:

Linux下配置hadoop环境变量 linux hadoop配置_Linux下配置hadoop环境变量_10