博学谷java课程怎么样博学谷系统功能介绍

转载

mob6454cc680fc0 2024-02-26 20:40:11

文章标签 博学谷java课程怎么样 hadoop 大数据 hdfs Powered by 金山文档 文章分类 Java 后端开发

一、Hadoop框架

1.1介绍

1、Hadoop是Apache旗下的使用Java语言开发的框架

2、Hadoop内部包含三个组件:

HDFS（分布式文件系统）：解决海量数据存储

MAPREDUCE（分布式运算编程框架）：解决海量数据计算

YARN（作业调度和集群资源管理的框架）：解决资源任务调度

1.2历史版本

开源版：

1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等，该版本已被淘汰

2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性,是现在使用的主流版本。

3.x版本系列：对HDFS、MapReduce、YARN都有较大升级，还新增了Ozone key-value存储。

商业版：

商业公司对开源版Hadoop做二次调优和封装，Cloudera Hadoop: 简称为CDH

社区版：http://hadoop.apache.org/

收费版：https://www.cloudera.com/

1.3Hadoop模块

1、Hadoop1.x组件只有HDFS和MapReduce

2、Hadoop2.x组件有：HDFS、MapReduce、Yarn

3、Hadoop3.x组件有：HDFS、MapReduce、Yarn，但是对Hadoop2.x的内核做了一些优化和调整

1.4Hadoop集群搭建

1、需要搭建HDFS集群组件：NameNode、DataNode、SecondaryNameNode

2、需要搭建Yarn集群组件：ResourceManager、NodeManager

3、我们不需要搭建MapReduce组件，因为MapReduce只是一个代码库，最后呈现的只是一段代码，没有组件，也就是对于MapReduce，我们只需要写代码

1.5集群部署方式

1.standalone mode（独立模式）

独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2.Pseudo-Distributed mode（伪分布式模式）

伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

3.Cluster mode（群集模式）

集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

1.6Hadoop的目录结构

bin： Hadoop最基本的管理脚本和使用脚本的目录

sbin：Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

share：Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

etc/hadoop： Hadoop配置文件所在的目录，安装Hadoop就是对etc/hadoop目录下的文件进行操作

二、搭建步骤

2.1搭建方案

节点信息		node1	node2	node3
HDFS集群守护进程	NameNode	√	×	×
	SecondaryNameNode	×	√	×
	DataNode	√	√	√
YARN集群守护进程	ResourceManager	√	×	×
	NodeManager	√	√	√

2.2安装步骤

1、下载Hadoop的安装包或者源码包

http://archive.apache.org/dist/hadoop/common/hadoop-3.3.0/

2、对Hadoop的源码包进行编译(可选)

3、在node1上，上传编译过的Hadoop安装包到/export/software目录

4、在node1上，将上传的压缩包解压到/export/server目录

cd /export/software

tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz -C /export/server/

5、在node1上进入Hadoop的配置文件目录

cd /export/server/hadoop-3.3.0/etc/hadoop

6、在node1上对Hadoop的文件进行配合

配置参考文档：https://hadoop.apache.org/docs/stable/

• 1、 hadoop-env.sh
exportJAVA_HOME=/export/server/jdk1.8.0_241

#文件最后添加
exportHDFS_NAMENODE_USER=root
exportHDFS_DATANODE_USER=root
exportHDFS_SECONDARYNAMENODE_USER=root
exportYARN_RESOURCEMANAGER_USER=root
exportYARN_NODEMANAGER_USER=root
• 2、 core-site.xml
<!-- 指定HDFS的主节点NameNode在ndoe1上 -->
<property>
 <name>fs.defaultFS</name>
 <value>hdfs://node1:8020</value>
</property>

<!-- 指定HDFS数据的存放目录 -->
<property>
 <name>hadoop.tmp.dir</name>
 <value>/export/data/hadoop-3.3.0</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
 <name>hadoop.http.staticuser.user</name>
 <value>root</value>
</property>

<!-- 整合hive -->
<property>
 <name>hadoop.proxyuser.root.hosts</name>
 <value>*</value>
</property>

<property>
 <name>hadoop.proxyuser.root.groups</name>
 <value>*</value>
</property>
• 3、hdfs-site.xml
<!-- 指定secondarynamenode运行位置 -->
<property>
 <name>dfs.namenode.secondary.http-address</name>
 <value>node2:50090</value>
</property>
<property>
 <name>dfs.hosts.exclude</name>
 <value>/export/server/hadoop-3.3.0/etc/hadoop/excludes</value>
</property>
• 4、mapred-site.xml
<!--MapReduce执行时由Yarn来进行资源调度-->
<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

<!--给MapReduce指定Hadoop的安装位置-->
<property>
 <name>yarn.app.mapreduce.am.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
 <name>mapreduce.map.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
 <name>mapreduce.reduce.env</name>
 <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
• 5、 yarn-site.xml
<!-- 指定YARN的主角色（ResourceManager）的地址 -->
<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>node1</value>
</property>
 
<!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序默认值："" -->
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
 <name>yarn.nodemanager.pmem-check-enabled</name>
 <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>
<!-- 开启日志聚集 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
 <name>yarn.log.server.url</name>
 <value>http://node1:19888/jobhistory/logs</value>
</property>

<!-- 保存的时间7天,单位是秒 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>
• 6、workers
node1
node2
node3

7、在node1上，将配置好的Hadoop安装包分发给node2和node3

cd /export/server

scp -r hadoop-3.3.0/ node2:$PWD

scp -r hadoop-3.3.0/ node3:$PWD

8、在三台机器上，配置环境变量

vim /etc/profile #添加以下内容

exportHADOOP_HOME=/export/server/hadoop-3.3.0

exportPATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

9、在三台机器上，刷新环境变量

source /etc/profile

2.3Hadoop集群的启动

注意，第一次启动Hadoop之前，必须在对HDFS进行格式化，而且这个操作只能执行一次，切记！！！

hdfs namenode -format

启动HDFS集群

-- 选择node1节点启动NameNode节点
hdfs --daemon start namenode

-- 在所有节点上启动DataNode
hdfs --daemon start datanode

-- 在node2启动Secondary NameNode
hdfs --daemon start secondarynamenode

启动YARN集群

--  选择node1节点启动ResourceManager节点
yarn --daemon start resourcemanager

--  在所有节点上启动NodeManager
yarn --daemon start nodemanager

-- 启动历史服务
mapred --daemon start historyserver

一键启动、关闭HDFS,YARN

-- 在node1，一键启动HDFS、YARN
start-all.sh
--在node1，一键关闭HDFS、YARN
stop-all.sh

-- 启动历史服务
mapred --daemon start historyserver

2.4配置windows域名映射

以管理员身份打开C:\Windows\System32\drivers\etc目录下的hosts文件
在文件最后添加以下映射域名和ip映射关系

192.168.88.161 node1
192.168.88.162 node2
192.168.88.163 node3

保存退出
测试映射是否生效

C:\Users\China>ping node1
正在 Ping node1 [192.168.88.100] 具有 32 字节的数据:
来自 192.168.88.100 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.88.100 的回复: 字节=32 时间<1ms TTL=64

C:\Users\China>ping node2
正在 Ping node2 [192.168.88.101] 具有 32 字节的数据:
来自 192.168.88.101 的回复: 字节=32 时间<1ms TTL=64
192.168.88.101 的 Ping 统计信息:
    数据包: 已发送 = 1，已接收 = 1，丢失 = 0 (0% 丢失)，

C:\Users\China>ping node3
正在 Ping node3 [192.168.88.102] 具有 32 字节的数据:
来自 192.168.88.102 的回复: 字节=32 时间=9ms TTL=64
来自 192.168.88.102 的回复: 字节=32 时间<1ms TTL=64
来自 192.168.88.102 的回复: 字节=32 时间<1ms TTL=64

三、使用HDFS

从Linux本地上传一个文本文件到hdfs的/目录下

#在/export/data/目录中创建a.txt文件，并写入数据 cd /export/data/ touch echo "hello" > #将a.txt上传到HDFS的根目录 hadoop fs -put a.txt /

2.运行mapreduce程序

在Hadoop安装包的share/hadoop/mapreduce下有官方自带的mapreduce程序。我们可以使用如下的命令进行运行测试。（示例程序jar:hadoop-mapreduce-examples-3.1.4.jar计算圆周率）

yarn jar /export/server/hadoop-3.3.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar pi 2 50

3.Hadoop安装包目录结构

bin	Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。
etc	Hadoop配置文件所在的目录，包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
include	对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。
lib	该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。
libexec	各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。
sbin	Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。
share	Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：redis pipeline 中间会执行其他的命令吗 redis pipline 和 lua

下一篇：hadoop整合s3 hadoop3集群

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯