之前就听说过这玩意,花点时间安装了一下,现在分享给大家。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

环境配置:
虚拟机:centos6.7
Hadoop:hadoop2.6.0
Scala:scala2.9.3
Spark:spark2.0.1
JDK:jdk1.7

spark要安装hadoop吗 安装spark必须安装hadoop吗_spark要安装hadoop吗

从官网下载最新版本的spark,截止目前最新版的是1.5.1.下载地址:http://spark.apache.org/downloads.html

spark要安装hadoop吗 安装spark必须安装hadoop吗_hadoop_02

1.上传并配置

spark要安装hadoop吗 安装spark必须安装hadoop吗_spark_03

2.修改profile.d下面的spark.sh

spark要安装hadoop吗 安装spark必须安装hadoop吗_hadoop_04

export SPARK_EXAMPLES_JAR=/usr/local/spark-2.0.1-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.0.1.jar
export SPARK_HOME=/usr/local/spark-2.0.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

3.让配置文件生效

spark要安装hadoop吗 安装spark必须安装hadoop吗_SPARK_05

4.配置Spark环境变量

spark要安装hadoop吗 安装spark必须安装hadoop吗_spark要安装hadoop吗_06

export JAVA_HOME=/usr/jdk1.7.0_55
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
export SCALA_HOME=/usr/local/scala-2.9.3
export SPARK_HOME=/usr/local/spark-2.0.1-bin-hadoop2.6
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099

export SPARK_WORKER_CORES=3  //每个Worker使用的CPU核数
export SPARK_WORKER_INSTANCES=1   //每个Slave中启动几个Worker实例
export SPARK_WORKER_MEMORY=10G //每个Worker使用多大的内存
export SPARK_WORKER_WEBUI_PORT=8081//Worker的WebUI端口号
export SPARK_EXECUTOR_CORES=1 //每个Executor使用使用的核数
export SPARK_EXECUTOR_MEMORY=1G//每个Executor使用的内存

#export SPARK_CLASSPATH=/opt/hadoop-lzo/current/hadoop-lzo.jar //由于要用到lzo,因此需要配置
#export SPARK_CLASSPATH=$SPARK_CLASSPATH:$CLASSPATH //我用不到 --哈哈
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

5.配置Slave

vi slaves 添加以下内容:
localhost

启动Spark,在sbin下,配置了环境变量,也无所谓

spark要安装hadoop吗 安装spark必须安装hadoop吗_spark要安装hadoop吗_07

spark要安装hadoop吗 安装spark必须安装hadoop吗_SPARK_08

查看启动日志

spark要安装hadoop吗 安装spark必须安装hadoop吗_数据挖掘_09

浏览器查看

spark要安装hadoop吗 安装spark必须安装hadoop吗_SPARK_10

到这里就安装完了,没有hadoop环境的要先安装,scala安装很简单,具体参考我写的,第一次写博客,嘿嘿。