spark要安装hadoop吗安装spark必须安装hadoop吗

转载

mob64ca14196783 2024-05-30 00:17:37

文章标签 spark要安装hadoop吗 spark 数据挖掘 SPARK hadoop 文章分类 Spark 大数据

之前就听说过这玩意，花点时间安装了一下，现在分享给大家。

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

环境配置：
虚拟机：centos6.7
Hadoop：hadoop2.6.0
Scala：scala2.9.3
Spark：spark2.0.1
JDK：jdk1.7

spark要安装hadoop吗安装spark必须安装hadoop吗_spark要安装hadoop吗

从官网下载最新版本的spark，截止目前最新版的是1.5.1.下载地址：http://spark.apache.org/downloads.html

spark要安装hadoop吗安装spark必须安装hadoop吗_hadoop_02

1.上传并配置

spark要安装hadoop吗安装spark必须安装hadoop吗_spark_03

2.修改profile.d下面的spark.sh

spark要安装hadoop吗安装spark必须安装hadoop吗_hadoop_04

export SPARK_EXAMPLES_JAR=/usr/local/spark-2.0.1-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.0.1.jar
export SPARK_HOME=/usr/local/spark-2.0.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

3.让配置文件生效

spark要安装hadoop吗安装spark必须安装hadoop吗_SPARK_05

4.配置Spark环境变量

spark要安装hadoop吗安装spark必须安装hadoop吗_spark要安装hadoop吗_06

export JAVA_HOME=/usr/jdk1.7.0_55
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop
export SCALA_HOME=/usr/local/scala-2.9.3
export SPARK_HOME=/usr/local/spark-2.0.1-bin-hadoop2.6
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099

export SPARK_WORKER_CORES=3  //每个Worker使用的CPU核数
export SPARK_WORKER_INSTANCES=1   //每个Slave中启动几个Worker实例
export SPARK_WORKER_MEMORY=10G //每个Worker使用多大的内存
export SPARK_WORKER_WEBUI_PORT=8081//Worker的WebUI端口号
export SPARK_EXECUTOR_CORES=1 //每个Executor使用使用的核数
export SPARK_EXECUTOR_MEMORY=1G//每个Executor使用的内存

#export SPARK_CLASSPATH=/opt/hadoop-lzo/current/hadoop-lzo.jar //由于要用到lzo，因此需要配置
#export SPARK_CLASSPATH=$SPARK_CLASSPATH:$CLASSPATH //我用不到 --哈哈
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

5.配置Slave

vi slaves 添加以下内容：
localhost

启动Spark，在sbin下，配置了环境变量，也无所谓

spark要安装hadoop吗安装spark必须安装hadoop吗_spark要安装hadoop吗_07