hadoop 过时了 hadoop 最新

转载

mob6454cc63f2dd 2023-09-26 15:52:55

文章标签 hadoop 过时了 hadoop hdfs big data xml 文章分类 Hadoop 大数据

文章目录

前言
一、Hadoop是什么
二、搭建Hadoop环境

1.JDK安装
2.搭建HDFS伪分布群

2.1 配置环境变量hadoop
2.2 配置环境变量hadoop-env.sh
2.3配置核心组件core-site.xml
2.4 配置文件系统hdfs-site.xml

3.搭建YARN伪分布集群

3.1配置计算框架 mapred-site.xml
3.2配置环境变量 yarn-env.sh
3.3配置环境变量 yarn-site.xml

4.同步到SLAVE1，SLAVE2
5.再在SLAVE1,SLAVE2上面解压java并添加环境变量

总结

前言

“ 大数据 " 定义
（1）最早提出 “ 大数据 " 这一概念的全球知名咨询公司麦肯锡（詹姆斯．麦肯锡，美国芝加哥大学商学院教授、麦肯锡公司创始人。）的定义： “ 大数据 " 是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。
（2）研究机构 Gartner 是这样定义 “ 大数据 " 的： “ 大数据 " 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

一、Hadoop是什么

hadoop 过时了 hadoop 最新_big data

二、搭建Hadoop环境

1.JDK安装

代码如下（示例）

第一步需要先自己下载java的安装包，在官网上下载安装包即可，然后解压到自己想要存放的文件夹下
这里附上java官网下载地址
https://www.oracle.com/java/technologies/downloads/配置环境变量

vim /etc/profile

在/etc/profile最后加入这一段

export JAVA_HOME=/root/software/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin

使用source /etc/profile 使环境变量立即生效

在输入java查看是否安装成功
（这里可以设置ssh免密登录，但是此处不展示，可以私信我）

2.搭建HDFS伪分布群

2.1 配置环境变量hadoop

在官网上下载自己需要的hadoop安装包版本
先解压hadoop压缩包到/usr/hadoop目录下
Vim /etc/profile

export HADOOP_HOME=usr/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

Source /etc/profile

切换到该目录下
cd hadoop-2.7.7/etc/hadoop
ls一下可以显示所有的配置文件

2.2 配置环境变量hadoop-env.sh

修改该文件中的JAVA_HOME的值
export JAVA_HOME=/usr/java/jdk位置

2.3配置核心组件core-site.xml

<!-- HDFS集群中NameNode的URI（包括协议、主机名称、端口号），默认为 file:/// -->
<property>
<name>fs.default.name</name>
<!-- 用于指定NameNode的地址 -->
<value>hdfs://master:9000</value>
</property>
<!-- Hadoop运行时产生文件的临时存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.7/hdfs/tmp</value>    # 补充代码
</property>
 

<property>
<name>io.file.buffer.size</name>
<value>131072</value>    # 补充代码
</property>
 
<property>
<name>fs.checkpoint.period</name>
<value>60</value>    # 补充代码
</property>
 
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>    # 补充代码
</property>

hadoop 过时了 hadoop 最新_hadoop 过时了_02

2.4 配置文件系统hdfs-site.xml

<!-- NameNode在本地文件系统中持久存储命名空间和事务日志的路径 -->
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/hadoopData/name</value>
</property>
<!-- DataNode在本地文件系统中存放块的路径 -->
<property>
<name>dfs.datanode.data.dir</name>
<value>/root/hadoopData/data</value>
</property>
<!-- 数据块副本的数量，默认为3 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
            <!--hdfs文件操作权限,false为不验证，关闭集群权限校验，允许其他用户连接集群-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
                    <!--指定datanode之间通过域名进行通信-->
<property>
 <name>dfs.datanode.use.datanode.hostname</name>
<value>true</value>
</property>

放在文件中即可

3.搭建YARN伪分布集群

3.1配置计算框架 mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
修改hadoop2.7.7中etc/hadoop目录下mapred-site.xml文件，在标签中添加以下配置：

<property>
 
       <name>mapreduce.framework.name</name>
 
       <value>yarn</value>
 
</property>

3.2配置环境变量 yarn-env.sh

加入 export JAVA_HOME=/usr/java/jdk名称

hadoop 过时了 hadoop 最新_xml_03

3.3配置环境变量 yarn-site.xml

<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
 
 
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
 
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
 
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
 
 
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
 
 
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
 
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

4.同步到SLAVE1，SLAVE2

1.先该文件夹中
Vim master 里面输入 master
Vim slaves 里面输入
Slave1
Slave2
2.Scp -r /usr/hadoop root@slave1:/usr/
Scp -r /usr/hadoop root@slave2:/usr/
进行同步

5.再在SLAVE1,SLAVE2上面解压java并添加环境变量

export JAVA_HOME=/root/software/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

之后在master上格式化

hadoop 过时了 hadoop 最新_hadoop_04

hadoop namenode -format

star-all.sh 启动所有集群
在输入jps即可检测是否运行成功

总结

例如：以上就是今天要讲的内容，本文简单介绍了hadoop集群的搭建。

hadoop 过时了 hadoop 最新_big data_05

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java项目用户模块 java 用户管理

下一篇：java 钉钉发送钉钉发送代码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯