官方的原生配置文档Hadoop3.1.0

HDFS的组成

  1. NameNode
  2. secondaryNameNode
  3. DataNode

这是以主从模式来运行的,前两个在maser节点上,最后一个在slave节点上


1. 解压hadoop安装包

要学会从官方网站里找到历史镜像和release的发布版本来下载
我觉得从别人给的资源包里和从别的网盘里下载的东西还是太虚了
真正要学会一个东西必须从最原生的东西开始学起

一定要下载300兆的,不要下载src的,这个是源码文件

hdfs 均衡策略 简述hdfs的配置过程_hdfs


hdfs 均衡策略 简述hdfs的配置过程_hadoop_02

vmware中移动文件的小妙招

Vmware虚拟机和主机之间复制、粘贴内容、拖拽文件的详细方法

  1. 使用xftp来传输文件
  2. 使用vmware tools工具来直接进行拖拽传送

2. 配置Hadoop环境变量

其实配置的jdk的变量位置

Hadoop的环境变量文件:hadoop-env.sh

在hadoop子目录下的/etc文件中

把java_home的目录改为自己本机真实的jdk目录即可

3. 配置yarn环境变量

和上面相同,文件也是位于hadoop的解压目录下

在hadoop的3.1.0中,不需要配置yarn-env文件,默认会使用hadoop-env中的配置

4. 配置核心组件

core-site.xml文件的配置代码

<configuration>

<property>
	<name>fs.defaultFS</name>
	<value>hdfs://master:9000</value>
</property>

<property>
	<name>hadoop.tmp.dir</name>
	<value>/home/wangguowei/hadoopdata</value>
</property>

</configuration>

5. 配置文件系统

hdfs-site.xml

<configuration>

<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

</configuration>

6. 配置yarn-site.xml文件

<configuration>

<!-- Site specific YARN configuration properties -->

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>


<property>
        <name>yarn.resourcemanager.address</name>
        <value>master:18040</value>
</property>

<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:18030</value>
</property>

<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:18025</value>
</property>

<property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:18141</value>
</property>

<property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:18088</value>
</property>

 



</configuration>

7. 配置MapReduce计算框架文件

mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>2048</value>
</property>

<property>
  <name>mapreduce.map.java.opts</name>
  <value>-Xmx1024M</value>
</property>

<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>4096</value>
</property>

<property>
  <name>mapreduce.reduce.java.opts</name>
  <value>-Xmx2560M</value>
</property>

8. 配置master中的worker文件

[wangguowei@master hadoop]$ cat workers
slave0
slave1

免秘钥登录配置

1. master节点的配置

  • cat命令:复制并改名
  • scp命令:Linux scp 命令用于 Linux 之间复制文件和目录。

scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。

**思路:**在master中生成公钥和私钥,将master中的公钥给了slave1和0

2. 在slave节点的配置

  1. 生成rsa秘钥
  2. 将master中的公钥复制到隐藏的ssh文件中
  3. 顺便修改公钥的使用权限
如何从远程计算机退回到本地计算机?exit来退出

hdfs 均衡策略 简述hdfs的配置过程_大数据_03


hdfs 均衡策略 简述hdfs的配置过程_hdfs_04


Linux的远程登录

Linux 一般作为服务器使用,而服务器一般放在机房 你不可能在机房操作你的 Linux 服务器。

这时我们就需要远程登录到Linux服务器来管理维护系统。

Linux 系统中是通过 ssh 服务实现的远程登录功能,默认 ssh 服务端口号为 22。

Window 系统上 Linux 远程登录客户端有 SecureCRT, Putty, SSH Secure Shell 等,本文以 Putty 为例来登录远程服务器。

Putty 下载地址:https://www.putty.org/

在设置好免秘钥登录的配置后,我们就可以,在一台计算机中登录奴隶机,还是免密码登录,因为通过SSH协议通过的时候是要密码的