伪分布式:并不是真正的分布式,是将多台机器的任务放到一台机器上运行
一、安装jdk
1. 解压安装包
tar -zxvf jdk-8u161-linux-x64.tar.gz
2. 配置jdk环境变量
export JAVA_HOME=/home/java/jdk1.8.0_161
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=${JAVA_HOME}/bin:$PATH
3. 检验是否安装成功
输入java -version
出现上述图片即可
二、安装Hadoop及配置文件
1. 解压安装包
tar -zxvf hadoop-2.7.1_64bit.tar.gz
在解压完的安装包里创建俩个目录
创建存储临时文件的目录mkdir tmp
创建日志目录mkdir logs
2. 配置hadoop环境变量
export HADOOP_HOME=/home/hadoop/hadoop-2.7.1
export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
- 输入
hadoop version
验证是否安装成功
3. 配置hadoop-env.sh
这里是刚才JDK的安装路径
4. 配置core.site.xml
- 第一个属性用来指定HDFS老大得地址,也就是NameNode的地址
value值是主机名加端口号,如果在host文件中添加了主机名和ip映射,主机名也可以用ip地址替换 - 第二个属性用来指定hadoop运行时产生临时文件的路径
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.7.1/tmp</value>
</property>
5. 配置hdfs.site.xml
- 指定hdfs保存数据的副本数量,如果是2,总共有2份,因为是伪分布式,所以是1
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
6. 配置mapred-site.xml文件
- 如果没有mapred-site.xml,可以使用命令将mapred-site.xml.template 重命名
mv mapred-site.xml.template mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
- 这是指定mapreduce使用yarn框架
7. 配置yarn.site.xml文件
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
- 第一个告诉nodemanager获取数据的方式为shuffle
- 第二个指定yarn的老大Resourcemanagger的地址
8. 格式化
1.在bin目录下输入hadoop namenode -format
三、启动集群
- 在sbin目录上输入
start-all.sh
启动集群 - 在sbin目录上输入
stop-all.sh
关闭集群 - 出现上面的则启动成功
- 在浏览器输入http://主机IP:50070和 http://主机IP:8088是否访问,如果可以访问则安装成功