之前PPT里写平台产品价值的时候,总是会写“开箱即用,降低部署门槛"这一点,好奇之下自己找了些网上的资料,尝试了下部署,分享下自己Hadoop集群的搭建步骤。
准备工作
1、准备虚拟环境:安装VMware+CentOS
2、设置windows的vmnet8的ip地址和虚拟机中centos的ip地址
3、配置模板机并克隆,各台机器的主机名和ip地址如下:
主机名:master 对应的ip地址:192.168.110.11
主机名:slave1 对应的ip地址:192.168.110.12
主机名:slave2 对应的ip地址:192.168.110.13
3、配置好免密登录
4、安装JDK。
以上过程网上资料也比较多,就先略过了。
搭建Hadoop集群
安装
1、 新建目录
mkdir app
2、下载安装包并上传
3、解压
4、查看Hadoop目录
配置
hadoop的配置文件在:hadoop安装目录/etc/hadoop/
1、设定JDK
修改hadoop-env.sh
export JAVA_HOME=/usr/local/jdk
2、指定默认文件系统和namenode
修改core-site.xml
3、指定namenode目录
修改hdfs-site.xml,默认副本数为3
4、拷贝整个hadoop安装目录到其他机器
5、启动HDFS
在linux环境中配置HADOOP_HOME和PATH环境变量
vi /etc/profile
6、Hadoop安装成功
启动
1、启动namenode
1)初始化namenode的元数据目录
hadoop namenode -format
2)启动namenode进程(在master上)
hadoop-daemon.sh start namenode
3)启动完后,首先用jps查看一下namenode的进程是否存在
4)在windows上配置host
9000:HDFS客户端和namenode交互通信
50070:外部服务器5)在浏览器访问namenode提供的web端口
2、启动datanode
hadoop-daemon.sh start datanode
3、一般可以用自动批量启动脚本来启动HDFS
1)先配置master到集群中所有机器(包含自己)的免密登陆
2)配完免密后,可以执行一次 ssh 0.0.0.0
3)修改hadoop安装目录中/etc/hadoop/slaves(把需要启动datanode进程的节点列入)
4)在master上用脚本:start-dfs.sh 来自动启动整个集群
5)如果要停止,则用脚本:stop-dfs.sh