fedor搭建hadoop hadoop搭建

转载

mob6454cc6e6a40 2023-07-20 23:22:02

文章标签 fedor搭建hadoop 句柄 hadoop 数据倾斜 文章分类 Hadoop 大数据

hadoop搭建的步骤

1使用root账户登录

2 修改IP

3 修改host主机名

4 配置SSH免密码登录

5 关闭防火墙

6 安装JDK

6 解压hadoop安装包

7 配置hadoop的核心文件 hadoop-env.sh，core-site.xml , mapred-site.xml ， hdfs-site.xml

8 配置hadoop环境变量

9 格式化 hadoop namenode-format

10 启动节点 start-all.sh

简述为：

改IP，修改Host文件；
装JDK配置环境变量；
装Hadoop配置环境变量；
修改hadoop的配置文件如core-site、marp-site、yarn-site、dfs-site等；
namenode进行格式化；
start-all；

RPC 原理？

答：1.调用客户端句柄；执行传送参数

2.调用本地系统内核发送网络消息

3. 消息传送到远程主机

4. 服务器句柄得到消息并取得参数

5. 执行远程过程

6. 执行的过程将结果返回服务器句柄

7. 服务器句柄返回结果，调用远程系统内核

8. 消息传回本地主机

9. 客户句柄由内核接收消息

10. 客户接收句柄返回的数据

mapreduce的原理就是将一个MapReduce框架由一个单独的master JobTracker和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务，这些的slave上，master监控它们的执行，重新执行已经失败的任务。而slave仅负责执行由maste指派的任务。

HDFS主要是一个分布式的文件存储系统，由namenode来接收用户的操作请求，然后根据文件大小，以及定义的block块的大小，将大的文件切分成多个block块来进行保存

谈谈数据倾斜，如何发生的，并给出优化方案：

数据倾斜：map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，
这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，
从而导致某几个节点迟迟运行不完，此称之为数据倾斜。
解决：自己实现partition类，用key和value相加取hash值，将一个大的数据块分成多个小的文件，然后来执行mapreduce。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。