官方的原生配置文档Hadoop3.1.0
HDFS的组成
- NameNode
- secondaryNameNode
- DataNode
这是以主从模式来运行的,前两个在maser节点上,最后一个在slave节点上
1. 解压hadoop安装包
要学会从官方网站里找到历史镜像和release的发布版本来下载
我觉得从别人给的资源包里和从别的网盘里下载的东西还是太虚了
真正要学会一个东西必须从最原生的东西开始学起
一定要下载300兆的,不要下载src的,这个是源码文件
vmware中移动文件的小妙招
Vmware虚拟机和主机之间复制、粘贴内容、拖拽文件的详细方法
- 使用xftp来传输文件
- 使用vmware tools工具来直接进行拖拽传送
2. 配置Hadoop环境变量
其实配置的jdk的变量位置
Hadoop的环境变量文件:hadoop-env.sh
在hadoop子目录下的/etc文件中
把java_home的目录改为自己本机真实的jdk目录即可
3. 配置yarn环境变量
和上面相同,文件也是位于hadoop的解压目录下
在hadoop的3.1.0中,不需要配置yarn-env文件,默认会使用hadoop-env中的配置
4. 配置核心组件
core-site.xml文件的配置代码
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/wangguowei/hadoopdata</value>
</property>
</configuration>
5. 配置文件系统
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
6. 配置yarn-site.xml文件
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
</configuration>
7. 配置MapReduce计算框架文件
mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=/home/wangguowei/hadoop-3.1.0</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>2048</value>
</property>
<property>
<name>mapreduce.map.java.opts</name>
<value>-Xmx1024M</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>4096</value>
</property>
<property>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx2560M</value>
</property>
8. 配置master中的worker文件
[wangguowei@master hadoop]$ cat workers
slave0
slave1
免秘钥登录配置
1. master节点的配置
- cat命令:复制并改名
- scp命令:Linux scp 命令用于 Linux 之间复制文件和目录。
scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。
**思路:**在master中生成公钥和私钥,将master中的公钥给了slave1和0
2. 在slave节点的配置
- 生成rsa秘钥
- 将master中的公钥复制到隐藏的ssh文件中
- 顺便修改公钥的使用权限
如何从远程计算机退回到本地计算机?exit来退出
Linux的远程登录
Linux 一般作为服务器使用,而服务器一般放在机房 你不可能在机房操作你的 Linux 服务器。
这时我们就需要远程登录到Linux服务器来管理维护系统。
Linux 系统中是通过 ssh 服务实现的远程登录功能,默认 ssh 服务端口号为 22。
Window 系统上 Linux 远程登录客户端有 SecureCRT, Putty, SSH Secure Shell 等,本文以 Putty 为例来登录远程服务器。
Putty 下载地址:https://www.putty.org/
在设置好免秘钥登录的配置后,我们就可以,在一台计算机中登录奴隶机,还是免密码登录,因为通过SSH协议通过的时候是要密码的