软件版本:Spark 0.9
配置Spark开发环境,其实分为三个层次,一种是针对运维人员,把Spark安装部署到集群;一种是针对普通开发者,引入Spark的jar包,调用Spark提供的接口,编写分布式程序,写好后编译成jar,就可以提交到Spark集群去运行了;第三种是针对Spark开发者,为了给Spark贡献代码,需要git clone Spark的代码,然后导入IDE,为Spark开发代码。
1 部署Spark集群
这种是运维人员在生产环境下,搭建起一个Spark集群。
(可选)创建新用户 Spark
一般我倾向于把需要启动daemon进程,对外提供服务的程序,即服务器类的程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提高了。
创建一个新的group,
$ sudo groupadd spark
创建一个新的用户,并加入group,
$ sudo useradd -g spark spark
给新用户设置密码,
$ sudo passwd spark
在每台机器上创建 spark 新用户,并配置好SSH无密码,参考我的另一篇博客,SSH无密码登录的配置
假设有三台机器,hostname分别是 master, worker01, worker02。
1.1 下载 Spark 预编译好的二进制包
如果你需要用到HDFS,则要针对Hadoop 1.x 和Hadoop 2.x 选择不同的版本。这里我选择 Hadoop 2.x 版。
spark@master $ wget http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating-bin-hadoop1.tgz
spark@master $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
1.2 将tgz压缩包scp到所有机器,解压到相同的路径
spark@master $ scp spark-0.9.0-incubating-bin-hadoop1.tgz spark@worker01:~
spark@master $ ssh worker01
spark@worker01 $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
spark@worker01 $ exit
spark@master $ scp spark-0.9.0-incubating-bin-hadoop1.tgz spark@worker02:~
spark@master $ ssh worker02
spark@worker02 $ tar zxf spark-0.9.0-incubating-bin-hadoop1.tgz -C ~/local/opt
spark@worker02 $ exit
1.3 修改配置文件
conf/slaves
1.4 拷贝配置文件到所有slave
spark@master $ spark@master $ scp ./conf/slaves spark@worker01:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf
spark@master $ spark@master $ scp ./conf/slaves spark@worker02:~/local/opt/spark-0.9.0-incubating-bin-hadoop1/conf
1.5 启动Spark集群
spark@master $ ./sbin/start-all.sh
也可以一台一台启动,先启动 master
spark@master $ ./sbin/start-master.sh
启动两台 slave,
spark@worker01 $ ./sbin/start-slave.sh 1 spark://master:7077
spark@worker02 $ ./sbin/start-slave.sh 2 spark://master:7077
1
, 2
是 worker的编号,可以是任意数字,只要不重复即可,spark://master:7077
1.6 测试一下,向集群提交一个作业
spark@master $ ./bin/run-example org.apache.spark.examples.SparkPi spark://master:7077
2 配置普通开发环境
TODO
3 配置Spark开发环境
当你需要修改Spark的代码,或给Spark添加代码,就需要阅读本节了。
3.1 git clone 代码
git clone git@github.com:apache/incubator-spark.git
3.2 编译
Spark脚本会自动下载对应版本的sbt和scala编译器,因此机器事先不需要安装sbt和scala
按照 github 官方repo首页的文档,输入如下一行命令即可开始编译,
./sbt/sbt assembly
3.3 运行一个例子
./run-example org.apache.spark.examples.SparkPi local
说明安装成功了。
3.4 试用 spark shell
./spark-shell
scala>
提示符号,可见spark脚本自动下载了scala编译器,其实就是一个jar,例如scala-compiler-2.10.3.jar
。
3.5 安装scala
开发Spark的时候,由于Intellij Idea 需要调用外部的sbt和scala,因此机器上还是需要安装scala和sbt。
projects/SparkBuild.scala
,搜索scalaVersion
,获得spark所使用的scala编译器版本,然后去scala官网http://www.scala-lang.org/,下载该版本的scala编译器,并设置SCALA_HOME
环境变量,将bin目录加入PATH。例如下载scala-2.10.3.tgz,解压到/opt,设置环境变量如下:
sudo vim /etc/profile
export SCALA_HOME=/opt/scala-2.10.3
export PATH=$PATH:$SCALA_HOME/bin
3.6 安装sbt
projects/build.properties
,可以看到spark所使用的sbt版本号,去 官网http://www.scala-sbt.org/下载该版本的sbt,双击安装。并设置SBT_HOME
环境变量,将bin目录加入PATH。
3.7 下载并安装idea
Spark核心团队的hashjoin曾在我博客上留言,说他们都使用idea在开发spark,我用过Scala IDE和idea,两者各有优劣,总的来说,idea要好用一些,虽然我是老牌eclipse用户,但我还是转向了idea。
去idea官网下载idea的tar.gz包,解压就行。运行idea,安装scala插件。
3.8 生成idea项目文件
在源码根目录,使用如下命令
./sbt/sbt gen-idea
就生成了idea项目文件。
3.9 Open Project
File->Open project
,浏览到 incubator-spark
文件夹,打开项目,就可以修改Spark代码了。
spark版本:spark-0.9.1-bin-hadoop2 下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本:
For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
For CDH4: find an Apache mirror or direct file download
For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop2.2.0的,所以下载的是for hadoop2
关于spark的介绍可以参看http://spark.apache.org/
Apache Spark is a fast and general engine for large-scale data processing.
spark运行时需要scala环境,这里下载最新版本的scala http://www.scala-lang.org/
scala是一种可伸缩的语言是一种多范式的编程语言,一种类似java的编程,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是在JVM上运行,Scala是一种纯粹的面向对象编程语言,而又无缝地结合了命令式和函数式的编程风格
ok 开始配置spark:
我是在hadoop的安装用户下面安装的,所以这里直接编辑/home/hadoop/.bashrc
[hadoop@localhost ~]$ cat .bashrc
# .bashrc
# Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi
# User specific aliases and functions
export HADOOP_HOME=/home/hadoop/hadoop
export HBASE_HOME=/home/hadoop/hbase
export HIVE_HOME=/home/hadoop/hive
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_HOME=/etc/home/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SCALA_HOME=/home/hadoop/scala
export SPARK_HOME=/home/hadoop/spark
export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
export CLASSPATH=$CLASSPATH:$HADOOP/lib:$HBASE_HOME/lib
1.scala安装:
将scala解压到hadoop根目录下
ln -ls scala-2.11.0 scala#建立软链接
lrwxrwxrwx. 1 hadoop hadoop 12 May 21 09:15 scala -> scala-2.11.0
drwxrwxr-x. 6 hadoop hadoop 4096 Apr 17 16:10 scala-2.11.0
编辑.bashrc 加入 export SCALA_HOME=/home/hadoop/scala
export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
保存 并使环境变量生效 source .bashrc
验证安装:
[hadoop@localhost ~]$ scala -version
Scala code runner version 2.11.0 -- Copyright 2002-2013, LAMP/EPFL
能够正常显示版本说明安装成功
2:spark配置:
tar -xzvf spark-0.9.1-bin-hadoop2.tgz
ln -s spark-0.9.1-bin-hadoop2 spark
然后配置.bashrc
export SPARK_HOME=/home/hadoop/spark
export PATH=${PATH}:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
编辑完成source .bashrc 使环境变量生效
spark-env.sh配置:
spark-env.sh是不存在的 需要从 cat spark-env.sh.template >> spark-env.sh 生成
然后编辑spark-env.sh
加入一下内容
export SCALA_HOME=/home/hadoop/scala
export JAVA_HOME=/usr/java/jdk
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export HADOOP_HOME=/home/hadoop/hadoop
export SPARK_HOME=/home/hadoop/spark
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
保存退出
3.启动spark
跟hadoop的目录结构相似 在spark下面的sbin里边放了启动和关闭的shell文件
-rwxrwxr-x. 1 hadoop hadoop 2504 Mar 27 13:44 slaves.sh
-rwxrwxr-x. 1 hadoop hadoop 1403 Mar 27 13:44 spark-config.sh
-rwxrwxr-x. 1 hadoop hadoop 4503 Mar 27 13:44 spark-daemon.sh
-rwxrwxr-x. 1 hadoop hadoop 1176 Mar 27 13:44 spark-daemons.sh
-rwxrwxr-x. 1 hadoop hadoop 965 Mar 27 13:44 spark-executor
-rwxrwxr-x. 1 hadoop hadoop 1263 Mar 27 13:44 start-all.sh
-rwxrwxr-x. 1 hadoop hadoop 2384 Mar 27 13:44 start-master.sh
-rwxrwxr-x. 1 hadoop hadoop 1520 Mar 27 13:44 start-slave.sh
-rwxrwxr-x. 1 hadoop hadoop 2258 Mar 27 13:44 start-slaves.sh
-rwxrwxr-x. 1 hadoop hadoop 1047 Mar 27 13:44 stop-all.sh
-rwxrwxr-x. 1 hadoop hadoop 1124 Mar 27 13:44 stop-master.sh
-rwxrwxr-x. 1 hadoop hadoop 1427 Mar 27 13:44 stop-slaves.sh
[hadoop@localhost sbin]$ pwd
/home/hadoop/spark/sbin
这里只需要运行start-all就可以了~~~
[hadoop@localhost sbin]$ ./start-all.sh
rsync from localhost
rsync: change_dir "/home/hadoop/spark-0.9.1-bin-hadoop2/sbin/localhost" failed: No such file or directory (2)
rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1039) [sender=3.0.6]
starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-localhost.out
localhost: rsync from localhost
localhost: rsync: change_dir "/home/hadoop/spark-0.9.1-bin-hadoop2/localhost" failed: No such file or directory (2)
localhost: rsync error: some files/attrs were not transferred (see previous errors) (code 23) at main.c(1039) [sender=3.0.6]
localhost: starting org.apache.spark.deploy.worker.Worker, logging to /home/hadoop/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-localhost.out
通过jps查看启动是否成功:
[hadoop@localhost sbin]$ jps
4706 Jps
3692 DataNode
3876 SecondaryNameNode
4637 Worker
4137 NodeManager
4517 Master
4026 ResourceManager
3587 NameNode
可以看到有一个Master跟Worker进程 说明启动成功
可以通过http://localhost:8080/查看spark集群状况
4 运行spark自带的程序
首先需要进入spark下面的bin目录 :
[hadoop@localhost sbin]$ ll ../bin/
total 56
-rw-rw-r--. 1 hadoop hadoop 2601 Mar 27 13:44 compute-classpath.cmd
-rwxrwxr-x. 1 hadoop hadoop 3330 Mar 27 13:44 compute-classpath.sh
-rwxrwxr-x. 1 hadoop hadoop 2070 Mar 27 13:44 pyspark
-rw-rw-r--. 1 hadoop hadoop 1827 Mar 27 13:44 pyspark2.cmd
-rw-rw-r--. 1 hadoop hadoop 1000 Mar 27 13:44 pyspark.cmd
-rwxrwxr-x. 1 hadoop hadoop 3055 Mar 27 13:44 run-example
-rw-rw-r--. 1 hadoop hadoop 2046 Mar 27 13:44 run-example2.cmd
-rw-rw-r--. 1 hadoop hadoop 1012 Mar 27 13:44 run-example.cmd
-rwxrwxr-x. 1 hadoop hadoop 5151 Mar 27 13:44 spark-class
-rwxrwxr-x. 1 hadoop hadoop 3212 Mar 27 13:44 spark-class2.cmd
-rw-rw-r--. 1 hadoop hadoop 1010 Mar 27 13:44 spark-class.cmd
-rwxrwxr-x. 1 hadoop hadoop 3184 Mar 27 13:44 spark-shell
-rwxrwxr-x. 1 hadoop hadoop 941 Mar 27 13:44 spark-shell.cmd
run-example org.apache.spark.examples.SparkLR spark://localhost:7077
run-example org.apache.spark.examples.SparkPi spark://localhost:7077