什么是hadoop完全分布模式 hadoop完全分布式集群搭建

转载

恋上一只猪 2023-10-05 14:25:50

文章标签 什么是hadoop完全分布模式 hadoop spark vim xml 文章分类 Hadoop 大数据

在上一篇博客中，Hadoop集群搭建的前期准备，我们已经进行到了1，2两步，下面开始3，4步。

配置JDK
配置Hadoop（单机模式）
固定IP，配置ssh无密码登录
完全克隆2台机器（Hadoop集群最少3台）
固定IP，配置ssh无密码登录
IP可以说是每台机器的识别码，首先不能所有机器一模一样，因此我们在克隆之后，也是需要修改IP的。第二，IP必须不能任意变动，要不然集群之间无法有效识别。
执行以下命令:

ifconfig  		#记住网卡名称ens33

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop

sudo vim /etc/network/interfaces

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_02

sudo /etc/init.d/networking restart		#如果重启失败，直接reboot吧

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_03

重启之后，就可以开始ssh的登录配置了。

执行以下命令：

sudo vim /etc/hosts

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_spark_04

sudo vim /etc/hostname

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_vim_05

sudo apt-get install openssh-server		#Ubuntu没有自带ssh服务，因此需要安装
ssh localhost	#为了生成~/.ssh目录

完全克隆2台机器

首先需要关闭dm-1，然后再进行完全克隆

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_06

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_xml_07

这里建议修改下名字dm-2和dm-3

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_08

sudo vim /etc/network/interfaces #另外两台机器都要修改

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_09

sudo vim /etc/hostname

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_spark_10

reboot #下面的dm-1是用户名，dm-2是机器名，修改成功，开始测试是否ping成功

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_11

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_12

接下来在三台机器上分别执行以下指令

cd ~/.ssh
ssh-keygen -t rsa
ssh-copy-id dm-1		#将钥匙给自己
ssh dm-1				#测试ssh的无密码登录
ssh-copy-id dm-2		#将钥匙给dm-2
ssh dm-2
ssh-copy-id dm-3		#将钥匙给dm-3
ssh dm-3

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_13

在林老师的教程中，老师只教授了master(dm-1)登录其他节点的方法，而没有其他节点登录master的方法，我这里为什么要多此一举呢？需求不同。我们后期还有搭建zookeeper集群。

配置文件修改(如果hadoop版本是3.2.x，在配置文件中需要加入classpath,输入命令：hadoop classpath就可以得到，直接复制进去)

slaves #有些版本是workers文件
core-site.xml #hadoop的核心配置文件
hdfs-site.xml #用于配置namenode的url及namenode和datanode的存放位置
mapred-site.xml #mapreduce的相关配置
yarn-site.xml #配置资源管理系统yarn
执行以下命令：

cd /usr/local/hadoop/etc/hadoop
 sudo vim ./slaves	#加入从节点，一行一个

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_vim_14

sudo vim ./core-site.xml #dm-1为主机名，预设为master

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://dm-1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
</configuration>

sudo vim ./hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>dm-1:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

cp mapred-site.xml.template  mapred-site.xml
sudo vim ./mapred-site.xml

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>dm-1:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>dm-1:19888</value>
        </property>
</configuration>

sudo vim ./yarn-site.xml

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>dm-1</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_15

cd /usr/local/hadoop/etc/
scp -r ./hadoop dm-2:/usr/local/hadoop/etc/	#将文件分发到从节点
scp -r ./hadoop dm-3:/usr/local/hadoop/etc/

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_16

hdfs namenode -format       # 首次运行需要执行初始化，之后不需要
start-all.sh

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_vim_17

这里报错，JAVA_HOME is not set and could not be found.大致意思是我们没有弄好JAVA_HOME,但我们之前已经在前面测试过，是可行的，真正原因是我们需要在hadoop-env.sh中添加jdk的环境变量

cd /usr/local/hadoop/etc/hadoop

sudo vim ./hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

scp -r ./hadoop-env.sh dm-2:/usr/local/hadoop/etc/hadoop/

scp -r ./hadoop-env.sh dm-3:/usr/local/hadoop/etc/hadoop/

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_hadoop_18

重新start-all.sh

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_xml_19

没有明显错误，jps命令检验以下

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_spark_20

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_xml_21

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_什么是hadoop完全分布模式_22

以上各项进程一个都不能少，少了就说明有错误。如果没有报错，但缺少了进程，建议打开hadoop的日志文件logs，一般也都会报错，都在上面，仔细看看。

什么是hadoop完全分布模式 hadoop完全分布式集群搭建_vim_23

停止hadoop的命令是stop-all.sh,不建议在没有关闭hadoop时就直接关闭计算机，因为会造成未知错误，重启启动时需要hdfs namenode -format以下，次数多了之后，从节点的datanode就不会启动了，这时候就要把主节点的hadoop目录下的/tmp文件全部删掉，在格式化一次就行了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。