mac spark搭建 mac搭建hadoop

转载

mob64ca13f2b62d 2024-01-04 23:50:39

文章标签 mac spark搭建 hadoop HDFS mapreduce 文章分类 Spark 大数据

上一篇我们已经准备好三台虚拟机，计划一主两从搭建hadoop集群。没安装的可以参考一下。

虚拟机安装传送门：mac搭建hadoop集群之虚拟机安装

集群规划

主机	角色
node1	NN DN RM NM
node2	SNN DN NM
node3	DN NM

集群配置

hadoop3.3安装包下载

更改主机名

分别将三台虚拟机分别更改为node1、node2、node3。

vim /etc/hostname

mac spark搭建 mac搭建hadoop_mac spark搭建

新增host映射

vim /etc/hostname

# 添加的内容
172.16.254.4 node1
172.16.254.5 node2
172.16.254.6 node3

mac spark搭建 mac搭建hadoop_HDFS_02

时间同步及防火墙关闭

# 集群时间同步
ntpdate ntp5.aliyun.com

# 防火墙关闭
firewall-cmd --state	#查看防火墙状态
systemctl stop firewalld.service  #停止firewalld服务
systemctl disable firewalld.service  #开机禁用firewalld服务

ssh免密登录（只需要配置node1至node1、node2、node3即可）

#node1生成公钥私钥 (一路回车)
ssh-keygen  

#node1配置免密登录到node1 node2 node3
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

上传安装包

mkdir -p /export/server

将hadoop3.3安装包下载内的 jdk-8u241-linux-x64.tar.gz和hadoop-3.3.0-Centos7-64-with-snappy.tar.gz两个压缩包上传到node1中的/export/server。

解压

cd /export/server

tar zxvf jdk-8u241-linux-x64.tar.gz

tar zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz

环境变量的配置

#配置环境变量
vim /etc/profile

# jdk
export JAVA_HOME=/export/server/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
# hadoop
export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置完以后记得运行source /etc/profile，输入java -version查看jdk版本确认配置是否生效。

修改hadoop配置文件

配置文件路径/export/server/hadoop-3.3.0/etc/hadoop

hadoop-env.sh

#文件最后添加
export JAVA_HOME=/export/server/jdk1.8.0_241
export HADOOP_HOME=/export/server/hadoop-3.3.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=$HADOOP_HOME/logs

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

core-site.xml

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
</property>

<!-- io操作文件缓冲区大小 -->
<property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoop-3.3.0/data</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

hdfs-site.xml

<property>
    <name>dfs.namenode.rpc-address</name>
    <value>node1:8020</value>
</property>
<!-- hdfs文件系统，默认创建的文件权限设置 700表示rwx -->
<property>
    <name>dfs.datanode.data.dir.perm</name>
    <value>700</value>
</property>

<property>
    <name>dfs.namenode.name.dir</name>
    <value>/export/server/name</value>
</property>
<!-- NameNode允许哪几个节点的DataNode连接（即允许加入集群） -->
<property>
    <name>dfs.namenode.hosts</name>
    <value>node1,node2,node3</value>
</property>
<!-- hdfs默认块大小 256M -->
<property>
    <name>dfs.blocksize</name>
    <value>268435456</value>
</property>
<!-- namenode处理的并发线程数 以100个并行度处理文件系统的管理任务 -->
<property>
    <name>dfs.namenode.handler.count</name>
    <value>100</value>
</property>

<property>
    <name>dfs.datanode.data.dir</name>
    <value>/export/server/data</value>
</property>
<!-- 设置SNN进程运行机器位置信息 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node2:9868</value>
</property>

mapred-site.xml

<!-- 设置MR程序默认运行模式： yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>node1:10020</value>
</property>
 
<!-- MR程序历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>node1:19888</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

yarn-site.xml

<!-- 设置YARN集群主角色运行机器位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node1</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 开启日志聚集 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://node1:19888/jobhistory/logs</value>
</property>

<!-- 历史日志保存的时间 7天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>

workers

node1
node2
node3

分发同步hadoop安装包

cd /export/server

scp -r hadoop-3.3.0 root@node2:$PWD
scp -r hadoop-3.3.0 root@node3:$PWD

Hadoop集群启动

（首次启动，有数据的情况下千万别执行）格式化namenode

hdfs namenode -format

脚本一键启动
start-all.sh 可一键启动，当然也可以分开执行。

[root@node1 ~]# start-dfs.sh 
Starting namenodes on [node1]
Last login: Thu Nov  5 10:44:10 CST 2020 on pts/0
Starting datanodes
Last login: Thu Nov  5 10:45:02 CST 2020 on pts/0
Starting secondary namenodes [node2]
Last login: Thu Nov  5 10:45:04 CST 2020 on pts/0

[root@node1 ~]# start-yarn.sh 
Starting resourcemanager
Last login: Thu Nov  5 10:45:08 CST 2020 on pts/0
Starting nodemanagers
Last login: Thu Nov  5 10:45:44 CST 2020 on pts/0

[root@node1 ~]# start-all.sh

通过执行jps查看运行的hadoop集群是否满足我们的规划。node1这样完全满足。

mac spark搭建 mac搭建hadoop_mapreduce_03

Web UI页面

HDFS集群：http://node1:9870/（http://172.16.254.4:9870/可能需要加上ip才能正常打开）
YARN集群：http://node1:8088/

mac spark搭建 mac搭建hadoop_mac spark搭建_04

至此，hadoop集群搭建成功！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：objectstorage是openstack的组件吗 object storage service

下一篇：无序逻辑回归结果R语言怎么看无序logistic回归

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯