先安装个单机版练习一下,然后在动手搭建集群版。
Centos7安装Hadoop集群版
Hadoop文件系统操作指令
非必要配置:
1. 配置Centos默认启动命令行模式 减少内存使用
vi /etc/inittab
2. 配置普通用户能够使用sudo
vi /etc/sudoers
搜索Allow 添加一个hadoop用户
1. 配置静态IP地址
2. 配置主机名
sudo vi /etc/hostname
3. 配置hosts
sudo vi /etc/hosts
4. 安装Java环境
往Centos7 环境上传 hadoop压缩包 我选的hadoop2.9.2版本
解压命令 tar -xzvf hadoop-2.9.2.tar.gz
重命名 mv hadoop-2.9.2.tar.gz hadoop2
解压并重命名为hadoop2
5. 修改配置文件
5.1 修改hadoop-env.sh
vi hadoop2/etc/hadoop/hadoop-env.sh
修改JAVA_HOME为jdk目录
5.2 配置hadoop的core-sit.xml
vi hadoop2/etc/hadoop/core-site.xml
在configuration标签内添加一下配置
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdgroup01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop2/data/</value>
</property>
</configuration>
5.3 配置hdfs
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
5.4 配置mapreduce
复制配置文件并重命名
cp hadoop2/etc/hadoop/mapred-site.xml.template hadoop2/etc/hadoop/mapred-site.xml
vi hadoop2/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5.5 配置yarn
vi hadoop2/etc/hadoop/yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdgroup01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
注:为了操作方便 配置环境变量
vi /etc/profile
在文件最后面添加
export HADOOP_HOME=/home/hadoop/hadoop2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
刷新配置文件 source /etc/profile
6. 关闭防火墙
7. 格式化namenode
hadoop namenode -format
启动命令 在hadoop的sbin文件夹下
方便对各个模块启动时查看过程 下面对模块单个启动
8. 启动hdfs
start-dfs.sh
启动的时候可以看到需要连接 hdgroup01 (192.168.0.201) 自己本机
然后连接 localhost (::1) 启动 datenode
然后连接 0.0.0.0 (0.0.0.0) 启动 secondarynamenode
显然 上述步骤 我们并没有配置 datenode 和 secondarynamenode 在那个地方启动 应该是默认参数
9. 修改 slaves 配置文件
vi hadoop2/etc/hadoop/slaves
可以看到 默认为localhost
修改为自己的主机名 hdgroup01
10. 启动yarn 命令: start-yarn.sh
可以看到启动yarn 的时候 会启动 resourcemanager 和 nodemanager 而nodemanager 是我们配置的slaves文件中对应的节点
resourcemanager是yarn-site.xml配置的主机名
通过 启动hdfs 和 yarn 可以看出 只要在一台主机配置了从节点 启动 hdfs 或者 yarn 的时候会 通过ssh 连接到对应的从节点主机 并启动从节点的hdfs 或者 yarn
11. 查看进程 jps
12. 通过网页访问 hdfs
如果 hadoop2.x 无法进入页面 1. 查看防火墙 2. 通过jps 查看namenode是否启动
如果是hadoop3.x 端口换成9870 或者 手动配置端口
在hdfs-site.xml 中添加
<property>
<name>dfs.namenode.http.address</name>
<value>slave1:50070</value>
</property>
13. 查看mapreduce 能否运行
找到并运行mapreduce自带的例子来测试能否使用
hadoop jar hadoop-mapreduce-examples-2.9.2.jar pi 5 5
到这里伪分布式基本安装完成
简单看一下在本地如何找到上传的文件: Hadoop中hdfs如何存储文件
但是每启动一个节点就需要我们输一次密码 一个节点还可以接受 但是节点增多 会特别麻烦
Hadoop集群配置无密登录