一、Hadoop框架
1.1介绍
1、Hadoop是Apache旗下的使用Java语言开发的框架
2、Hadoop内部包含三个组件:
HDFS(分布式文件系统):解决海量数据存储
MAPREDUCE(分布式运算编程框架):解决海量数据计算
YARN(作业调度和集群资源管理的框架):解决资源任务调度
1.2历史版本
开源版:
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等,该版本已被淘汰
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性,是现在使用的主流版本。
3.x版本系列:对HDFS、MapReduce、YARN都有较大升级,还新增了Ozone key-value存储。
商业版:
商业公司对开源版Hadoop做二次调优和封装,Cloudera Hadoop: 简称为CDH
1.3Hadoop模块
1、Hadoop1.x组件只有HDFS和MapReduce
2、Hadoop2.x组件有:HDFS、MapReduce、Yarn
3、Hadoop3.x组件有:HDFS、MapReduce、Yarn,但是对Hadoop2.x的内核做了一些优化和调整
1.4Hadoop集群搭建
1、需要搭建HDFS集群组件:NameNode、DataNode、SecondaryNameNode
2、需要搭建Yarn集群组件:ResourceManager、NodeManager
3、我们不需要搭建MapReduce组件,因为MapReduce只是一个代码库,最后呈现的只是一段代码,没有组件,也就是对于MapReduce,我们只需要写代码
1.5集群部署方式
1.standalone mode(独立模式)
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。
2.Pseudo-Distributed mode(伪分布式模式)
伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
3.Cluster mode(群集模式)
集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。
1.6Hadoop的目录结构
bin: Hadoop最基本的管理脚本和使用脚本的目录
sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例。
etc/hadoop: Hadoop配置文件所在的目录,安装Hadoop就是对etc/hadoop目录下的文件进行操作
二、搭建步骤
2.1搭建方案
节点信息 | node1 | node2 | node3 | |
HDFS集群 守护进程 | NameNode | √ | × | × |
SecondaryNameNode | × | √ | × | |
DataNode | √ | √ | √ | |
YARN集群 守护进程 | ResourceManager | √ | × | × |
NodeManager | √ | √ | √ |
2.2安装步骤
1、下载Hadoop的安装包或者源码包
http://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/
2、对Hadoop的源码包进行编译(可选)
3、在node1上,上传编译过的Hadoop安装包到/export/software目录
4、在node1上,将上传的压缩包解压到/export/server目录
cd /export/software
tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz -C /export/server/
5、在node1上进入Hadoop的配置文件目录
cd /export/server/hadoop-3.3.0/etc/hadoop
6、在node1上对Hadoop的文件进行配合
配置参考文档:https://hadoop.apache.org/docs/stable/
• 1、 hadoop-env.sh
exportJAVA_HOME=/export/server/jdk1.8.0_241
#文件最后添加
exportHDFS_NAMENODE_USER=root
exportHDFS_DATANODE_USER=root
exportHDFS_SECONDARYNAMENODE_USER=root
exportYARN_RESOURCEMANAGER_USER=root
exportYARN_NODEMANAGER_USER=root
• 2、 core-site.xml
<!-- 指定HDFS的主节点NameNode在ndoe1上 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:8020</value>
</property>
<!-- 指定HDFS数据的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hadoop-3.3.0</value>
</property>
<!-- 设置HDFS web UI用户身份 -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
<!-- 整合hive -->
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
• 3、hdfs-site.xml
<!-- 指定secondarynamenode运行位置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node2:50090</value>
</property>
<property>
<name>dfs.hosts.exclude</name>
<value>/export/server/hadoop-3.3.0/etc/hadoop/excludes</value>
</property>
• 4、mapred-site.xml
<!--MapReduce执行时由Yarn来进行资源调度-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!--给MapReduce指定Hadoop的安装位置-->
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
• 5、 yarn-site.xml
<!-- 指定YARN的主角色(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node1</value>
</property>
<!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序默认值:"" -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 是否将对容器实施物理内存限制 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<!-- 开启日志聚集 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置yarn历史服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://node1:19888/jobhistory/logs</value>
</property>
<!-- 保存的时间7天,单位是秒 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
• 6、workers
node1
node2
node3
- 7、在node1上,将配置好的Hadoop安装包分发给node2和node3
cd /export/server
scp -r hadoop-3.3.0/ node2:$PWD
scp -r hadoop-3.3.0/ node3:$PWD
- 8、在三台机器上,配置环境变量
vim /etc/profile #添加以下内容
exportHADOOP_HOME=/export/server/hadoop-3.3.0
exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 9、在三台机器上,刷新环境变量
source /etc/profile
2.3Hadoop集群的启动
注意,第一次启动Hadoop之前,必须在对HDFS进行格式化,而且这个操作只能执行一次,切记!!!
hdfs namenode -format
启动HDFS集群
-- 选择node1节点启动NameNode节点
hdfs --daemon start namenode
-- 在所有节点上启动DataNode
hdfs --daemon start datanode
-- 在node2启动Secondary NameNode
hdfs --daemon start secondarynamenode
启动YARN集群
-- 选择node1节点启动ResourceManager节点
yarn --daemon start resourcemanager
-- 在所有节点上启动NodeManager
yarn --daemon start nodemanager
-- 启动历史服务
mapred --daemon start historyserver
一键启动、关闭HDFS,YARN
-- 在node1,一键启动HDFS、YARN
start-all.sh
--在node1,一键关闭HDFS、YARN
stop-all.sh
-- 启动历史服务
mapred --daemon start historyserver
2.4配置windows域名映射
- 以管理员身份打开C:\Windows\System32\drivers\etc目录下的hosts文件
- 在文件最后添加以下映射域名和ip映射关系
192.168.88.161 node1
192.168.88.162 node2
192.168.88.163 node3
- 保存退出
- 测试映射是否生效
C:\Users\China>ping node1
正在 Ping node1 [192.168.88.100] 具有 32 字节的数据:
来自 192.168.88.100 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.88.100 的回复: 字节=32 时间<1ms TTL=64
C:\Users\China>ping node2
正在 Ping node2 [192.168.88.101] 具有 32 字节的数据:
来自 192.168.88.101 的回复: 字节=32 时间<1ms TTL=64
192.168.88.101 的 Ping 统计信息:
数据包: 已发送 = 1,已接收 = 1,丢失 = 0 (0% 丢失),
C:\Users\China>ping node3
正在 Ping node3 [192.168.88.102] 具有 32 字节的数据:
来自 192.168.88.102 的回复: 字节=32 时间=9ms TTL=64
来自 192.168.88.102 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.88.102 的回复: 字节=32 时间<1ms TTL=64
三、使用HDFS
- 从Linux本地上传一个文本文件到hdfs的/目录下
#在/export/data/目录中创建a.txt文件,并写入数据 cd /export/data/ touch echo "hello" > #将a.txt上传到HDFS的根目录 hadoop fs -put a.txt / |
2.运行mapreduce程序
在Hadoop安装包的share/hadoop/mapreduce下有官方自带的mapreduce程序。我们可以使用如下的命令进行运行测试。(示例程序jar:hadoop-mapreduce-examples-3.1.4.jar计算圆周率)
yarn jar /export/server/hadoop-3.3.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar pi 2 50 |
3.Hadoop安装包目录结构
bin | Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。 |
etc | Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。 |
include | 对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。 |
lib | 该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。 |
libexec | 各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。 |
sbin | Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。 |
share | Hadoop各个模块编译后的jar包所在的目录,官方自带示例。 |