linux hadoop 配置文件 hadoop配置

转载

mob6454cc647bdb 2023-08-25 15:03:15

文章标签 linux hadoop 配置文件 hadoop maven 数据 文章分类 Hadoop 大数据

文章目录

1. hadoop的介绍
2. hadoop架构模型
3. Apache版本的hadoop重新编译

3.1：准备linux环境
3.2：虚拟机联网，关闭防火墙，关闭selinux
3.3：安装jdk1.7
3.4：安装maven
3.5：安装findbugs
3.6：在线安装一些依赖包
3.7：安装protobuf
3.8、安装snappy
3.9：编译hadoop源码

4. hadoop安装

4.1 解压hadoop包
4.2 修改配置文件
4.3 配置hadoop环境变量
4.4 启动集群

1. hadoop的介绍

Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案：

分布式文件系统（GFS），可用于处理海量网页的存储
分布式计算框架MapReduce，可用于处理海量网页的索引计算问题。

Nutch的开发人员完成了相应的开源实现hdfs和MapReduce，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目.

建议去看一下原文，Google有三篇分布式的论文，网上译文很多。

HDFS操作过程

将文件分块，分别存储到不同计算机中

linux hadoop 配置文件 hadoop配置_linux hadoop 配置文件

设置一台计算机来管理和整合其他计算机

linux hadoop 配置文件 hadoop配置_hadoop_02

防止计算机宕机，每个分片数据会在多台中保存副本

linux hadoop 配置文件 hadoop配置_数据_03

MapReduce操作过程

将计算任务进行拆分

linux hadoop 配置文件 hadoop配置_maven_04

将各部分结果汇总

狭义上的hadoop指的是HDFS(分布式文件系统)，MapReduce(分布式计算系统)和Yarn(分布式样集群资源管理 )，广义上指的是hadoop生态圈

linux hadoop 配置文件 hadoop配置_数据_05

apache所有软件的下载地址（包括各种历史版本）：

http://archive.apache.org/dist/

由于是开源版本，包更新较快但是稳定性不是太好。

2. hadoop架构模型

主要介绍2.x版本的架构模型，2.x一共有四种架构模型

第一种：NameNode与ResourceManager单节点架构模型

linux hadoop 配置文件 hadoop配置_数据_06

linux hadoop 配置文件 hadoop配置_maven_07

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据

secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配

NodeManager：负责执行主节点APPmaster分配的任务

不能很好的解决单点故障问题

第二种：NameNode单节点与ResourceManager高可用架构模型

linux hadoop 配置文件 hadoop配置_hadoop_08

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据

secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用

NodeManager：负责执行主节点ResourceManager分配的任务

ResourceManager有备份节点，一旦ZKFC(watch机制)检测到主节点宕机，备份节点马上替代主节点

第三种：NameNode高可用与ResourceManager单节点架构模型

linux hadoop 配置文件 hadoop配置_数据_09

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中nameNode可以有两个，形成高可用状态

DataNode：集群当中的从节点，主要用于存储集群当中的各种数据

JournalNode：文件系统元数据信息管理，实现两个namenode之间的数据同步

数据计算核心模块：

ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分

NodeManager：负责执行主节点ResourceManager分配的任务

第四种：NameNode与ResourceManager高可用架构模型

linux hadoop 配置文件 hadoop配置_linux hadoop 配置文件_10

文件系统核心模块：

NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用

JournalNode：元数据信息管理进程，一般都是奇数个

DataNode：从节点，用于数据的存储

数据计算核心模块：

ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用

NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务

3. Apache版本的hadoop重新编译

由于appache给出的hadoop的安装包没有提供带C程序访问的接口，所以我们在使用本地库（本地库可以用来做压缩，以及支持C程序等等）的时候就会出问题,需要对Hadoop源码包进行重新编译.

3.1：准备linux环境

准备一台linux环境，内存4G或以上，硬盘40G或以上，我这里使用的是Centos6.9 64位的操作系统（注意：一定要使用64位的操作系统）

3.2：虚拟机联网，关闭防火墙，关闭selinux

关闭防火墙命令：

service  iptables   stop
chkconfig   iptables  off

关闭selinux

vim /etc/selinux/config

linux hadoop 配置文件 hadoop配置_maven_11

3.3：安装jdk1.7

注意hadoop-2.7.5 这个版本的编译，只能使用jdk1.7，如果使用jdk1.8那么就会报错

查看centos6.9自带的openjdk

rpm -qa | grep java

linux hadoop 配置文件 hadoop配置_maven_12

将所有这些openjdk全部卸载掉

rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64

注意：这里一定不要使用jdk1.8，亲测jdk1.8会出现错误

将我们jdk的安装包上传到/export/softwares（我这里使用的是jdk1.7.0_71这个版本）

解压我们的jdk压缩包

统一两个路径

mkdir -p /export/servers
mkdir -p /export/softwares
cd /export/softwares
tar -zxvf jdk-7u71-linux-x64.tar.gz -C ../servers/

配置环境变量

vim /etc/profile

export JAVA_HOME=/export/servers/jdk1.7.0_71
export PATH=:$JAVA_HOME/bin:$PATH

linux hadoop 配置文件 hadoop配置_数据_13

让修改立即生效

source /etc/profile

3.4：安装maven

这里使用maven3.x以上的版本应该都可以，不建议使用太高的版本，强烈建议使用3.0.5的版本即可

将maven的安装包上传到/export/softwares

然后解压maven的安装包到/export/servers

cd /export/softwares/
tar -zxvf apache-maven-3.0.5-bin.tar.gz -C ../servers/

配置maven的环境变量

vim /etc/profile

export MAVEN_HOME=/export/servers/apache-maven-3.0.5
export MAVEN_OPTS="-Xms4096m -Xmx4096m"
export PATH=:$MAVEN_HOME/bin:$PATH

linux hadoop 配置文件 hadoop配置_maven_14

让修改立即生效

source /etc/profile

解压maven的仓库

tar -zxvf mvnrepository.tar.gz -C /export/servers/

修改maven的配置文件

cd  /export/servers/apache-maven-3.0.5/conf
vim settings.xml

指定我们本地仓库存放的路径

linux hadoop 配置文件 hadoop配置_hadoop_15

添加一个我们阿里云的镜像地址，会让我们下载jar包更快

<mirror>
      <id>alimaven</id>
      <name>aliyun maven</name>
      <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
      <mirrorOf>central</mirrorOf>
    </mirror>

linux hadoop 配置文件 hadoop配置_maven_16

3.5：安装findbugs

解压findbugs

tar -zxvf findbugs-1.3.9.tar.gz -C ../servers/

配置findbugs的环境变量

vim /etc/profile

export JAVA_HOME=/export/servers/jdk1.7.0_75
export PATH=:$JAVA_HOME/bin:$PATH

export MAVEN_HOME=/export/servers/apache-maven-3.0.5
export PATH=:$MAVEN_HOME/bin:$PATH

export FINDBUGS_HOME=/export/servers/findbugs-1.3.9
export PATH=:$FINDBUGS_HOME/bin:$PATH

linux hadoop 配置文件 hadoop配置_linux hadoop 配置文件_17

让修改立即生效

source /etc/profile

3.6：在线安装一些依赖包

yum install autoconf automake libtool cmake
yum install ncurses-devel
yum install openssl-devel
yum install lzo-devel zlib-devel gcc gcc-c++

bzip2压缩需要的依赖包

yum install -y  bzip2-devel

3.7：安装protobuf

解压protobuf并进行编译

cd  /export/softwares
tar -zxvf protobuf-2.5.0.tar.gz -C ../servers/
cd   /export/servers/protobuf-2.5.0
./configure
make && make install

3.8、安装snappy

cd /export/softwares/
tar -zxf snappy-1.1.1.tar.gz  -C ../servers/
cd ../servers/snappy-1.1.1/
./configure
make && make install

3.9：编译hadoop源码

对源码进行编译

cd  /export/softwares
tar -zxvf hadoop-2.7.5-src.tar.gz  -C ../servers/
cd  /export/servers/hadoop-2.7.5

编译支持snappy压缩：

mvn package -DskipTests -Pdist,native -Dtar -Drequire.snappy -e -X

编译完成之后我们需要的压缩包就在下面这个路径里面

/export/servers/hadoop-2.7.5/hadoop-dist/target

4. hadoop安装

集群规划

服务器IP	192.168.174.100	192.168.174.110	192.168.174.120
主机名	node01	node02	node03
NameNode	是	否	否
SecondaryNameNode	是	否	否
dataNode	是	是	是
ResourceManager	是	否	否
NodeManager	是	是	是

4.1 解压hadoop包

上传压缩包并解压

cd /export/softwares
rz -E
tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/

4.2 修改配置文件

修改core-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  core-site.xml

<configuration>
	<!-- 指定集群的文件系统类型：分布式系统 -->
	<property>
		<name>fs.default.name</name>
		<value>hdfs://hadoop1:8020</value>
	</property>
    <!-- 指定临时文件存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.7.5/hadoopDatas/tempDatas</value>

	</property>

	<!--  缓冲区大小，实际工作中根据服务器性能动态调整 -->

	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>

	<!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
	</property>
</configuration>

修改hdfs-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim hdfs-site.xml

<configuration>
    <!-- secondary namenode地址设置 -->
	 <property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>hadoop1:50090</value>
	</property>

    <!-- 指定namenode的访问地址和端口 -->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>hadoop1:50070</value>
	</property>
    
    <!-- 指定namenode元数据的存储路径 -->
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>
	</property>
    
	<!--  定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>
	</property>	
    
    <!-- 指定namenode日志文件的存放地址 -->
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/nn/edits</value>
	</property>

	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/snn/name</value>
	</property>
    
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>
	</property>

    <!-- 指定一个文件的副本个数 -->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>

	<!-- 设置hdfs文件权限 -->
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>

    <!-- 指定一个文件切片大小 -->
    <property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>

</configuration>

修改hadoop-env.sh

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  hadoop-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改mapred-site.xml

本地没有这个文件，不需要重建，要将mapred-queues.xml.template文件的后缀去掉，写入改文件

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-site.xml

<configuration>
    <!-- 开启MapReduce小任务模式 -->
	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>

	<!-- 设置历史任务的主机和端口 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>hadoop1:10020</value>
	</property>
 
    <!-- 设置网页访问历史任务的主机和端口 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>hadoop1:19888</value>
	</property>

</configuration>

yarn-site.xml

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  yarn-site.xml

<configuration>
    <!-- 配置yarn主节点位置 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop1</value>
	</property>
    
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<!-- 开启日志聚合功能-->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
    <!-- 设置聚合日志聚合在hdfs上的保存时间 -->
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>
    
    <!-- 设置yarn集群的内存分配方案 -->
	<property>    
		<name>yarn.nodemanager.resource.memory-mb</name>    
		<value>20480</value>
	</property>
	<property>  
        	 <name>yarn.scheduler.minimum-allocation-mb</name>
         	<value>2048</value>
	</property>
	<property>
		<name>yarn.nodemanager.vmem-pmem-ratio</name>
		<value>2.1</value>
	</property>

</configuration>

mapred-env.sh

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim  mapred-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

修改slaves

cd  /export/servers/hadoop-2.7.5/etc/hadoop
vim slaves

hadoop1
hadoop2
hadoop3

创建文件路径

mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/servers/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

复制到第二台和第三台机器，不需要做其他修改

cd  /export/servers/
scp -r hadoop-2.7.5 hadoop2:$PWD
scp -r hadoop-2.7.5 hadoop3:$PWD

4.3 配置hadoop环境变量

三台都需要配置环境变量

vim  /etc/profile

export HADOOP_HOME=/export/servers/hadoop-2.7.5
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

让配置生效

source /etc/profile

4.4 启动集群

要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个模块。
注意：首次启动 HDFS 时，必须对其进行格式化操作。本质上是一些清理和
准备工作，因为此时的 HDFS 在物理上还是不存在的。

cd  /export/servers/hadoop-2.7.5/
# 格式化，仅在第一次启动时需要执行
bin/hdfs namenode -format
# 启动HDFS
sbin/start-dfs.sh
# 启动yarn
sbin/start-yarn.sh
# 启动历史完成任务
sbin/mr-jobhistory-daemon.sh start historyserver
# 关闭HDFS
sbin/stop-dfs.sh
# 关闭yarn
sbin/stop-yarn.sh

三个端口查看页面

查看hdfs：http://hadoop1:50070/explorer.html

linux hadoop 配置文件 hadoop配置_数据_18

查看yarn集群：http://hadoop1:8088/cluster

linux hadoop 配置文件 hadoop配置_数据_19

查看历史完成的任务：http://hadoop1:19888/jobhistory

linux hadoop 配置文件 hadoop配置_hadoop_20

注意：启动hadoop前，要保证zookeeper是启动的，要不然可能启动失败

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 比较多个分类模型画图 python分类问题

下一篇：java中单个字符怎么输入进字符数组 java输入一个字符串数组

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯