0.环境说明
硬件环境:VMWare虚拟机,内存2GB
操作系统:Ubuntu12.04 32位操作系统 (64位操作系统的话更好,但是虚拟机还是32位吧)
准备安装软件:JDK1.7 , Hadoop2.6.0, Scala2.10.4, Spark1.2.0
1.安装JDK
(1) 下载JDK1.7(建议1.7) ,名为jdk-7u79-linux-i586.tar.gz,下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
(2) 将下载的jdk-7u79-linux-i586.tar.gz复制到/usr/local目录
进入文件所在目录,cp jdk-7u79-linux-i586.tar.gz /usr/local
(3) 解压缩 # tar zxvf jdk-7u79-linux-i586.tar.gz
,
得到jdk1.7.0_79文件夹,为其创建快捷方式:
# ln –s jdk1.7.0_79 java
(4) 修改配置文件~/.bashrc,添加环境变量:
# sudo gedit ~/.bashrc //打开文件
向该文件末尾添加如下语句并保存:
export JAVA_HOME=/usr/local/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
关闭,控制台输入
# source ~/.bashrc激活环境变量
输入 java –version验证是否配置正确
2 配置ssh无密码登陆
(1)安装ssh-server
# apt-get install openssh-server
(2)控制台输入
# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
(3)验证ssh,# ssh localhost,如果能直接进入即可(第一次输入需要新建,输入y)
输入exit可退出
3 安装hadoop2.6.0
(1) 下载hadoop-2.6.0.tar.gz。Hadoop2.6.0本身是通过64位JDK编译的,如果操作系统和JDK均为64位,可官网直接下载
32位操作系统也能使用
(2) 将下载的hadoop-2.6.0.tar.gz复制到/usr/local目录
进入文件所在目录,cphadoop-2.6.0.tar.gz /usr/local
(3) 解压缩
# tar zxvf hadoop-2.6.0.tar.gz,
得到hadoop-2.6.0文件夹
(4) 进入hadoop-2.6.0文件夹的etc/hadoop进行配置,配置以下文件:hadoop-env.sh ; core-site.xml;hdfs-site.xml;mapred-site.xml
hadoop-env.sh 找到
# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}
修改为
# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/local/java
core-site.xml 删除里面所有,写入
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.6.0/tmp</value>
</property>
</configuration>
hdfs-site.xml删除里面所有,写入
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop-2.6.0/hdfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop-2.6.0/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
注:dfs.replication一定是1,因为我们是单机版本的,正常情况下是3
mapred-site.xml 好像一开始没这个文件,新建(直接输入sudo gedit mapred-site.xml即可,或者touch mapred-site.xml),写入
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5) 关闭防火墙(防火墙可能会影响到hadoop工作,但是单机版本应该不影响)
# sudo ufw disable
(6) 创建以下文件夹(在(3)中配置的一些地址)
mkdir /usr/local/hadoop-2.6.0/tmp
mkdir /usr/local/hadoop-2.6.0/hdfs
mkdir /usr/local/hadoop-2.6.0/hdfs/name
mkdir /usr/local/hadoop-2.6.0/hdfs/data
(7) 启动hadoop (在hadoop文件夹目录)
1) 格式化namenode
# bin/hdfs namenode –format
2) 启动相应进程
# sbin/start-all.sh
3)输入jps可看到进程
4)浏览器输入localhost:8088可出现以下UI界面
4. 安装scala
(1) 下载下载scala-2.10.4.tgz,地址http://www.scala-lang.org/download/2.10.4.html
(2) 拷贝到/usr/local文件夹并解压
# cp scala-2.10.4.tgz /usr/local
# tar zxvf scala-2.10.4.tgz
(3) 配置环境变量,文件~/.bashrc
# sudo gedit ~/.bashrc
加入以下配置并保存:
export SCALA_HOME=/usr/local/scala-2.10.4
export PATH=$JAVA_HOME/bin$HADOOP_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$PATH
# source ~/.bashrc激活配置
(4)控制台输入scala验证是否配置成功
输入exit可退出
5.安装spark-1.2.0-bin-hadoop2.4
(1)下载spark-1.2.0-bin-hadoop2.4.tgz,解压到/usr/local/spark-1.2.0-bin-hadoop2.4。
下载地址http://spark.apache.org/downloads.html
(2) 配置环境变量,文件~/.bashrc
# sudo gedit ~/.bashrc
加入以下配置并保存:
export SPARK_HOME=/usr/local/spark-1.2.0-bin-hadoop2.4
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$HIVE_HOME/bin:$PATH
# source ~/.bashrc激活配置
(3) 配置spark
进入spark目录的conf文件夹,输入
# cd $SPARK_HOME/conf
# cp spark-env.sh.template spark-env.sh 复制配置文件
# sudo gedit spark-env.sh 文件末尾加入
export JAVA_HOME=/usr/local/java
export SCALA_HOME=/usr/local/scala-2.10.4
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/Hadoop
保存
(4) 进入spark目录启动spark
# sbin/start-all.sh
输入jps可看到进程
(5)在浏览器中输入localhost:8080可看到spark的ui界面
结束spark进程:
Spark目录下sbin/stop-all.sh
结束hadoop进程:
Hadoop目录下sbin/stop-all.sh