之前PPT里写平台产品价值的时候,总是会写“开箱即用,降低部署门槛"这一点,好奇之下自己找了些网上的资料,尝试了下部署,分享下自己Hadoop集群的搭建步骤。

准备工作

1、准备虚拟环境:安装VMware+CentOS

2、设置windows的vmnet8的ip地址和虚拟机中centos的ip地址

3、配置模板机并克隆,各台机器的主机名和ip地址如下:
主机名:master 对应的ip地址:192.168.110.11
主机名:slave1 对应的ip地址:192.168.110.12
主机名:slave2 对应的ip地址:192.168.110.13

3、配置好免密登录

4、安装JDK。

以上过程网上资料也比较多,就先略过了。

搭建Hadoop集群

安装

1、 新建目录

mkdir app

2、下载安装包并上传

hadoop ip限制 hadoop的ip地址_ip地址


3、解压

hadoop ip限制 hadoop的ip地址_hadoop ip限制_02


4、查看Hadoop目录

hadoop ip限制 hadoop的ip地址_hadoop_03

配置

hadoop的配置文件在:hadoop安装目录/etc/hadoop/

1、设定JDK
修改hadoop-env.sh

export JAVA_HOME=/usr/local/jdk

2、指定默认文件系统和namenode

修改core-site.xml

hadoop ip限制 hadoop的ip地址_hadoop_04

3、指定namenode目录

修改hdfs-site.xml,默认副本数为3

hadoop ip限制 hadoop的ip地址_hadoop ip限制_05

4、拷贝整个hadoop安装目录到其他机器

hadoop ip限制 hadoop的ip地址_hdfs_06

hadoop ip限制 hadoop的ip地址_hadoop ip限制_07

5、启动HDFS

在linux环境中配置HADOOP_HOME和PATH环境变量

vi /etc/profile

hadoop ip限制 hadoop的ip地址_hadoop ip限制_08


6、Hadoop安装成功

hadoop ip限制 hadoop的ip地址_ip地址_09

启动

1、启动namenode
1)初始化namenode的元数据目录

hadoop namenode -format

2)启动namenode进程(在master上)

hadoop ip限制 hadoop的ip地址_hadoop ip限制_10

hadoop-daemon.sh start namenode

3)启动完后,首先用jps查看一下namenode的进程是否存在

hadoop ip限制 hadoop的ip地址_ip地址_11


hadoop ip限制 hadoop的ip地址_ip地址_12

4)在windows上配置host

hadoop ip限制 hadoop的ip地址_hdfs_13


9000:HDFS客户端和namenode交互通信

50070:外部服务器5)在浏览器访问namenode提供的web端口

hadoop ip限制 hadoop的ip地址_hdfs_14


2、启动datanode

hadoop-daemon.sh start datanode

hadoop ip限制 hadoop的ip地址_hdfs_15


hadoop ip限制 hadoop的ip地址_hdfs_16


hadoop ip限制 hadoop的ip地址_hadoop_17


hadoop ip限制 hadoop的ip地址_ip地址_18


hadoop ip限制 hadoop的ip地址_hdfs_19


hadoop ip限制 hadoop的ip地址_hdfs_20

3、一般可以用自动批量启动脚本来启动HDFS

1)先配置master到集群中所有机器(包含自己)的免密登陆

2)配完免密后,可以执行一次 ssh 0.0.0.0

3)修改hadoop安装目录中/etc/hadoop/slaves(把需要启动datanode进程的节点列入)

hadoop ip限制 hadoop的ip地址_hdfs_21


4)在master上用脚本:start-dfs.sh 来自动启动整个集群

hadoop ip限制 hadoop的ip地址_big data_22


5)如果要停止,则用脚本:stop-dfs.sh

hadoop ip限制 hadoop的ip地址_big data_23