spark 单机 spark单机版安装

转载

mob64ca1409970a 2023-11-15 13:47:42

文章标签 spark 单机 spark vmware ubuntu hadoop 文章分类 Spark 大数据

0.环境说明
硬件环境：VMWare虚拟机，内存2GB
操作系统：Ubuntu12.04 32位操作系统（64位操作系统的话更好，但是虚拟机还是32位吧）
准备安装软件：JDK1.7 , Hadoop2.6.0, Scala2.10.4, Spark1.2.0

1.安装JDK
(1) 下载JDK1.7(建议1.7) ，名为jdk-7u79-linux-i586.tar.gz，下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
(2) 将下载的jdk-7u79-linux-i586.tar.gz复制到/usr/local目录
进入文件所在目录，cp jdk-7u79-linux-i586.tar.gz /usr/local
(3) 解压缩
# tar zxvf jdk-7u79-linux-i586.tar.gz，
得到jdk1.7.0_79文件夹，为其创建快捷方式：

# ln –s jdk1.7.0_79 java

(4) 修改配置文件~/.bashrc，添加环境变量:

# sudo gedit ~/.bashrc //打开文件

向该文件末尾添加如下语句并保存：

export JAVA_HOME=/usr/local/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

关闭，控制台输入

# source ~/.bashrc激活环境变量

输入 java –version验证是否配置正确

2 配置ssh无密码登陆
（1）安装ssh-server

# apt-get install openssh-server

（2）控制台输入

# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

（3）验证ssh，# ssh localhost，如果能直接进入即可（第一次输入需要新建，输入y）

输入exit可退出

3 安装hadoop2.6.0
（1）下载hadoop-2.6.0.tar.gz。Hadoop2.6.0本身是通过64位JDK编译的，如果操作系统和JDK均为64位，可官网直接下载
32位操作系统也能使用
(2) 将下载的hadoop-2.6.0.tar.gz复制到/usr/local目录
进入文件所在目录，cphadoop-2.6.0.tar.gz /usr/local
(3) 解压缩

# tar zxvf hadoop-2.6.0.tar.gz，

得到hadoop-2.6.0文件夹
(4) 进入hadoop-2.6.0文件夹的etc/hadoop进行配置，配置以下文件：hadoop-env.sh ； core-site.xml；hdfs-site.xml；mapred-site.xml
hadoop-env.sh 找到

# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}

修改为

# The java implementation to use.
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/local/java

core-site.xml 删除里面所有，写入
<configuration>
 <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>

<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop-2.6.0/tmp</value>
</property>
</configuration>

hdfs-site.xml删除里面所有，写入
<configuration>
<property>
    <name>dfs.name.dir</name>
    <value>/usr/local/hadoop-2.6.0/hdfs/name</value> 
</property>

<property>
    <name>dfs.data.dir</name>
    <value>/usr/local/hadoop-2.6.0/hdfs/data</value>
</property>

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
</configuration>
注：dfs.replication一定是1，因为我们是单机版本的，正常情况下是3

mapred-site.xml 好像一开始没这个文件，新建（直接输入sudo gedit mapred-site.xml即可，或者touch mapred-site.xml），写入
<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

(5) 关闭防火墙（防火墙可能会影响到hadoop工作，但是单机版本应该不影响）

# sudo ufw disable

(6) 创建以下文件夹（在（3）中配置的一些地址）

mkdir /usr/local/hadoop-2.6.0/tmp 
 mkdir /usr/local/hadoop-2.6.0/hdfs 
 mkdir /usr/local/hadoop-2.6.0/hdfs/name 
 mkdir /usr/local/hadoop-2.6.0/hdfs/data

(7) 启动hadoop (在hadoop文件夹目录)
1) 格式化namenode

# bin/hdfs namenode –format

2) 启动相应进程

# sbin/start-all.sh

3)输入jps可看到进程

4）浏览器输入localhost:8088可出现以下UI界面

spark 单机 spark单机版安装_spark

4. 安装scala

(1) 下载下载scala-2.10.4.tgz，地址http://www.scala-lang.org/download/2.10.4.html

(2) 拷贝到/usr/local文件夹并解压

# cp scala-2.10.4.tgz /usr/local
# tar zxvf scala-2.10.4.tgz

(3) 配置环境变量，文件~/.bashrc

# sudo gedit ~/.bashrc

加入以下配置并保存：

export SCALA_HOME=/usr/local/scala-2.10.4
export PATH=$JAVA_HOME/bin$HADOOP_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$PATH
# source ~/.bashrc激活配置

(4)控制台输入scala验证是否配置成功

输入exit可退出

5.安装spark-1.2.0-bin-hadoop2.4

(1)下载spark-1.2.0-bin-hadoop2.4.tgz，解压到/usr/local/spark-1.2.0-bin-hadoop2.4。

下载地址http://spark.apache.org/downloads.html

spark 单机 spark单机版安装_spark 单机_02

(2) 配置环境变量，文件~/.bashrc

# sudo gedit ~/.bashrc

加入以下配置并保存：

export SPARK_HOME=/usr/local/spark-1.2.0-bin-hadoop2.4
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$HIVE_HOME/bin:$PATH
# source ~/.bashrc激活配置

(3) 配置spark
进入spark目录的conf文件夹，输入

# cd $SPARK_HOME/conf
# cp spark-env.sh.template spark-env.sh 复制配置文件
# sudo gedit spark-env.sh 文件末尾加入
export JAVA_HOME=/usr/local/java
export SCALA_HOME=/usr/local/scala-2.10.4
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/Hadoop
保存
(4) 进入spark目录启动spark
# sbin/start-all.sh

输入jps可看到进程

(5)在浏览器中输入localhost:8080可看到spark的ui界面

结束spark进程：
Spark目录下sbin/stop-all.sh
结束hadoop进程：
Hadoop目录下sbin/stop-all.sh

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。