参考网站:
Linux下配置jdk1.7- Hustc的专栏 - 博客频道 - CSDN.NET
高效搭建Spark完全分布式集群- 服务器负载均衡 - 次元立方网 - 电脑知识与技术互动交流平台
hadoop学习之hadoop完全分布式集群安装- 落魄影子 - 博客频道 - CSDN.NET
hadoop2.2完全分布式最新高可靠安装文档-Hadoop2|YARN-about云开发
Spark1.0.0分布式环境搭建 - lili72的专栏 - 博客频道 - CSDN.NET
经过几天的挣扎,终于对hadoop,spark的安装配置有一定了解,下面与大家分享一下。
搭建spark建立在搭建完hadoop的基础上,所以我们分为两大部分,第一大部分先搭建hadoop集群,其次搭建spark集群。
一、搭建hadoop集群
这里我们先利用两台计算机搭建集群,一台作为master,一台作为slave1。根据实际需要可以以后添加slave。我的两台计算机ip:
master 114.212.115.29
slave1 114.212.114.76
1.为我们搭建hadoop集群独立建立一个用户(因为方便之后的ssh远程登录以及容易管理):
sudo groupaddhadoop //
设置
hadoop
用户组
sudo useradd –s /bin/bash –d /home/zhm –m zrs –g hadoop –Gadmin //
添加一个
zhm
用户,此用户属于
hadoop
用户组,且具有
admin
权限。
sudo passwd zrs //
设置用户
zhm
登录密码
su zrs //
切换到
zhm
用户中
(ps:这里可将zrs用户加到/etc/sudoers中去,方便以后在zrs用户下使用sudo命令,不然会报错)
2.
2.1将两台计算机分别改名,容易辨别:
sudo vim /etc/hostname(分别在里面改成master与slave1)
2.2修改两台机子的/etc/hosts文件,添加master,slave1对应的 ip
sudo vim /etc/hosts
在里面加上
114.212.115.29 master
114.212.114.76 slave1
3. 安装开启两台机子上的ssh服务
3.1下载ssh(两台机都要)
sudo apt-get install ssh
3.2 每台机子产生自己的密钥
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
3.3 导入authorized_keys(把自己的公钥导入authorized_keys,实现无密码登录)
ssh/id_dsa.pub>> ~/.ssh/
这时可以单机无密码登录了,可用下面命令测试:
ssh localhost
3.4 实现master到slave1的无密码登录,就是把master的authorized_keys放到slave1的中
进入
master的.ssh目录
scp authorized_keyszrs
@slave1:~/.ssh/authorized_keys_from_master
进入slave1的.ssh目录
catauthorized_keys_from_master >> authorized_keys
这样在master上就能免密码登录slave1了
4. 安装jdk
我装的是jdk1.7.0_71,官网上下即可。
4.1解压jdk
tar -zxvf jdk_XXXX -C /usr
4.2配置环境变量
vim ~/.bashrc
在其中加入:
export JAVA_HOME=/usr/jdk1.7.0_71
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
然后source ~/.bashrc使其立即生效
5. 安装和配置hadoop
5.1 解压hadoop
tar -zxvf hadoopXXX -C ~/
5.2配置hadoop(以下配置文件在~/hadoop/etc/hadoop里)
配置文件1:hadoop-env.sh
修改JAVA_HOME值(exportJAVA_HOME=/usr/jdk1.7.0_71)
5.2.2 配置文件2:yarn-env.sh
修改JAVA_HOME值(exportJAVA_HOME=/usr/jdk1.7.0_71)
5.2.3 配置文件3:slaves(这个文件里面保存所有slave节点)
在其中加入slave1
core-site.xml 、 hdfs-site.xml 、 mapred-site.xml 这三个文件
参考
5.2.5 复制到其他节点
sudoscp -r ~/hadoop zrs @slave1:~/
5.2.6 修改环境变量
sudo vim /etc/environment
在PATH中加入/home/zrs/hadoop/bin:/home/zrs/hadoop/sbin
5.3 格式化namenode
hadoop namenode -format
6. 启动namenode
start-all.sh(此文件在~/hadoop/sbin)
用jps命令可查看正在工作的hadoop进程
至此,hadoop安装配置完成。